Estatística Aplicada II
• Profa. Flávia Landim
• E-mail:
[email protected]
• Aulas: quintas de 13h-18h20
• Início: 22 de agosto de 2013
• Avaliações: P1 10/10, P2 28/11. apresentação de
trabalhos: 5 e 12/12 (grupos de 3 alunos que
Estatística Aplicada II
• Ementa no SIGA:
Conceito de regressão associado à correlação entre variáveis. Conceito de ajustamento. Métodos de ajustamento eaplicação à determinação das equações de regressão. Teoria elementar de probabilidades: princípios fundamentais. Distribuição binomial e
distribuição normal: propriedades e aplicações à psicologia. Noções de inferência estatística: estimação de parâmetros.
• Página com as informações da disciplina:
Estatística Aplicada II
• Referências (
livro-texto ainda a definir
)
• Estatística Básica: a arte de trabalhar com dados.
João Ismael, Sônia, Santiago e Gastão. Editora
Campus.
• Estatística sem Matemática para Psicologia. Dancey
e Reidy. Artmed.
Estatística: o que é?
• O primeiro uso da palavra ESTATÍSTICA parece datar do
final do século XVI, referindo-se a uma “
ciência civil,
política, estatística e militar
” em um trabalho do
historiador Girolomo Ghilini. (Berquó, 1981)
• As expressões “statistics”, “statist
” e “
statistical
”
são
derivadas do latim
status
com duplo significado:
O Estado da Estatística
Os primeiros usos da estatística envolviam compilação de dados e gráficos que descreviam vários aspectos de um estado ou país. Em 1662, John Gaunt publicou informação estatística acerca de
nascimentos e mortes. O trabalho de Gaunt foi seguido por estudos sobre taxas de mortalidade e de doenças, tamanhos de populações, renda e taxas de desemprego.
Os governos e as empresas se apoiam fortemente em dados estatísticos: taxas de desemprego, taxas de inflação, índices do consumidor, taxas de nascimento e morte são cuidadosamente compiladas de modo regular, e os dados resultantes são usados pelos gestores para tomar decisões que afetam futuras
Breve História da Estatística
• Nos séculos XVII e XVIII, a estatística voltou-se mais para cálculos de probabilidades.
• No século XIX, Laplace e Gauss começaram a aplicar a distribuição normal na explicação de fenômenos reais.
• Nesta época iniciou-se a aplicação da estatística na pesquisa em Ciências Sociais.
• No século XX difundiram-se os métodos multivariados para analisar conjuntamente várias variáveis.
Estatística: o que é ?
Para Sir Ronald A. Fisher (1890-1962):
Estatística é o estudo das populações, das
Estatística: o que é?
• ``Eu gosto de pensar na
Estatística como a ciência de
aprendizagem a partir dos
dados ... ´´
Jon Kettenring
Estatística: o que é?
Uma boa definição é:
“Estatística é um
conjunto de técnicas
e métodos que nos auxiliam no
processo de tomada de decisão na
Estatística: o que é?
Toda atividade humana é baseada em previsões e tomadas de decisão sob incerteza: - quando
entramos para a universidade; - quando arrumamos um emprego;
- quando um paciente é submetido a um tratamento; - quando investimos uma quantia no mercado de ações; etc.
Estatística: o que é?
• Calyampudi R. Rao (1920- ), um estatístico
importante, cujo trabalho teórico contribuiu
para os fundamentos da Estatística Moderna
apresentou a seguinte equação:
conhecimento
incerto +
conhecimento
da quantidade = conhecimento
Essa parte da equação representa um papel fundamental do estatístico
Alguns Exemplos de situações em que se usa
Estatística
• Mensuração das mudanças no meio-ambiente para avaliar os efeitos do aquecimento global.
• Mensuração da poluição do ar para avaliar os efeitos na saúde da população.
• Análise de experimentos sobre o uso de fertilizantes para maximizar a produção de um grão.
• Mensuração da eficácia de diferentes medicamentos para encontrar o melhor, e identificar efeitos colaterais.
• Cálculo de quão provável duas pessoas têm o mesmo perfil de DNA. • Estudo sobre hábitos migratórios de certo animal;
Conceitos Básicos
• População: conjunto de elementos com pelo menos
uma característica em comum. A população define o
universo que vai ser estudado.
Conceitos Básicos
• Parâmetro –
é uma característica numérica da
população.
• Estatística -
é uma característica numérica da
amostra.
Inferência Estatística
• Em linhas gerais podemos dizer que a Inferência Estatística está voltada para fazer afirmações sobre toda a população, quando se conhece apenas uma amostra da população. • Desejamos fazer afirmações sobre parâmetros, usando
estatísticas.
• É claro que estaremos sujeitos a variações inerentes ao processo de amostragem e será muito importante saber quantificar a incerteza associada à inferência realizada.
Probabilidade
• A ferramenta matemática usada para
quantificar incertezas é a teoria das
probabilidades.
• Noções básicas de probabilidade serão objeto
de estudo nesta disciplina.
Etapas na análise estatística de dados
Amostragem–coleta de dados
Cálculo de Probabilidades
Estatística descritiva - Análise exploratória de dados –
organização dos dados
Estatística Básica
• Vamos tratar agora da etapa do processo de análise, chamada Análise Descritiva ou Análise Exploratória de Dados.
• Os dados precisam ser organizados em tabelas, gráficos ou mapas, e também usando-se medidas úteis que descrevem de alguma
forma o conjunto de dados.
• Em geral, é a partir desta análise que será proposto um modelo que descreva pelo menos razoavelmente a geração dos dados em
estudo.
• Não serão tratados aqui os tópicos sobre coleta e organização dos dados.
Escalas de medição e tipos de variáveis
• As escalas de medição são: nominal, ordinal, de contagem, intervalar e de razão.
• As técnicas estatísticas diferenciam-se em relação ao tipo de variável.
• As variáveis são classificadas em dois grandes grupos: categóricas ou qualitativas (escalas nominal e ordinal) e numéricas ou quantitativas (escalas de contagem,
Escalas intervalar e de razão
• A escala intervalar aproxima-se da concepção comum de medida, já que
possui uma unidade de medida constante. Entretanto, a origem desta
escala é arbitrária. Os exemplos mais comuns de escala de intervalo são as escalas de temperatura Celsius e Fahrenheit. Cada uma delas atribui um zero arbitrário.
• A escala de razão é a mais elaborada das escalas de medida, no sentido de
permitir todas as operações aritméticas. Essa escala possui um ponto zero único, além de unidade de medida constante. É a escala de medida mais comum nas ciências físicas, tais como as escalas para a medida de
Síntese numérica – medidas-resumo para variáveis
quantitativas
• As medidas a serem trabalhadas são de duas naturezas distintas, a saber,
• 1) medidas de posição – média aritmética, mediana, moda, percentis (quartis, quintis), buscam caracterizar valores que sejam representativos na distribuição de frequência dos
valores observados, e
• 2) medidas de dispersão – amplitude amostral. distância interquartílica, desvio médio, variância, desvio-padrão,
Medidas de Posição
• 1) Moda – realização mais frequente do conjunto de
valores observados. Em alguns casos, pode haver
mais de uma moda, ou seja, uma distribuição pode
ser bimodal, trimodal, multimodal. É possível
também que não exista moda, se todos os valores
ocorrerem com a mesma frequência.
Medidas de Posição
• 2) Mediana – é a realização que ocupa a posição central da série de observações, quando estão ordenadas em ordem crescente.
• Nota: se o número de observações é ímpar indica-se como mediana o valor que ocupa a posição (n+1)/2. Caso contrário, o usual é indicar como mediana a semi soma dos valores que ocupam as duas posições centrais, a saber, n/2 e n/2+1.
Medidas de Posição
• 3) Média aritmética – soma das observações dividida pelo número de observações.
• Formalizando, se x1, x2, ..., xn são n valores observados
num conjunto de dados, a média aritmética é dada por
n i n i n n x x x x x 1 2 1 1 ...Medidas de posição
• 4) Percentis: são 99 medidas que dividem a
distribuição de frequências em 100 partes de
frequência 1% tal que o p-ésimo percentil,
p
=1,2,...,99, corresponde a um valor para o qual p%
dos valores observados são menores ou iguais a ele.
• Notação: (P1, P2, ..., P10, ..., P99)
Percentis Especiais
• Quartis: são três medidas, Q1, Q2 e Q3, que dividem a
distribuição em quatro partes de frequências iguais a 25%.
• Q1 – primeiro quartil – 25% dos valores são menores ou iguais a Q1
• Q2– segundo quartil – 50% dos valores são menores ou iguais a Q2 (Observe que Q2 coincide com a mediana)
• Q3 – terceiro quartil – 75% dos valores são menores ou iguais a Q3
Percentis especiais
• Quintis
– são quatro medidas que dividem a
distribuição em 5 partes de frequências iguais
a 20%. (P20,P40,P60,P80)
• Decis
– são 9 medidas que dividem a
distribuição em 10 partes de frequências
iguais a 10%.(P10,P20, ..., P90)
Medidas de dispersão
• 1)
Amplitude amostral
– é a diferença entre o
maior valor e menor valor observados.
• 2)
Distância interquartílica
– é a diferença
entre o terceiro e primeiro quartis.
Medidas de Dispersão
• Sejam x1, x2, ..., xn os n valores observados num conjunto de
dados, e a média. Define-se como desvios da média as diferenças:
x
x
x
i
Em qualquer conjunto de dados a soma dos desvios da média será sempre nula, pois os desvios positivos com- pensam-se com os desvios negativos.
Variância amostral
• A variância amostral é uma média dos
quadrados dos desvios da média definida
por:
n i ix
x
n
s
1 2 21
1
Desvio-padrão amostral
• O desvio-padrão amostral (s) é a raiz quadrada
positiva da variância amostral.
• O desvio-padrão tem a mesma unidade de
medida das observações e poderá ser
Como comparar desvios padrão?
• Como as escalas dos valores podem ser diferentes não há como dizer se um conjunto é mais disperso em relação a sua média apenas olhando o valor do seu desvio-padrão.
• Um desvio padrão igual a 1 u pode ser grande ou pequeno dependendo da magnitude dos valores observados.
• Se dois conjuntos têm desvios-padrões iguais, como classificar o mais disperso em relação à média?
Coeficiente de variação amostral
• É a razão entre desvio-padrão e média.
Em geral é apresentado em termos
percentuais sendo multiplicado por 100.
• É útil na avaliação da magnitude da
Tipos de gráficos
• Setores, barras, linha, histograma, ramo-folhas,
box
plot
(diagrama de caixa), etc.
• Os gráficos de setores e barras são adequados para
variáveis categóricas (qualitativas).
• Nesses gráficos, a única escala a ser considerada é a
escala de frequência dos diferentes tipos de resposta
observados para a variável categórica.
Em geral, recomenda-se não usar este tipo de gráfico, quando o número de
Gráfico de setores
Gráfico de setores
Observe que há apenas 4
respostas diferentes, mas não dá para perceber diferenças entre centro, norte e sul.
Gráfico de barras
Agora é possível perceber as diferenças entre as frequências observadas.
Gráfico de barras
As barras que representam as frequências de cada resposta podem ser dispostas de forma horizontal ou vertical.
Gráfico de linha
• Adequado para representar observações feitas
ao longo do tempo.
• A série deve apresentar no mínimo 5
observações.
20
40
60
Nº de casos no município do Rio
Histograma
• É usado para representar a distribuição de
frequências de uma variável quantitativa
contínua cujos valores observados foram
agrupados em intervalos de classe.
• O gráfico é composto por retângulos
adjacentes cuja área é igual a frequência da
classe correspondente.
Ramo-e-folhas
• É um gráfico alternativo ao histograma.
• A vantagem do ramo-e-folhas em relação ao
histograma é que não há perda de
informação.
• No histograma as observações individuais
estão agrupadas em classes.
Medidas de posição: média e mediana
A média é a soma dos valores observados
sobre o número de observações (média
aritmética).
No histograma ela representa o ponto de
Média versus mediana
é mais fácil de ser manipulada algebricamente;
representa o centro de massa dos dados.
É muito afetada por valores extremos.
é mais difícil de ser manipulada algebricamente;
é o valor que ocupa a posição central quando os dados estão ordenados; (divide o histograma correspondente em duas partes de áreas iguais).
Distribuições unimodais
Em distribuições unimodais tem-se sempre a mediana entre a média e a moda:
ou média<=mediana<=moda (assimetria negativa) ou moda<=mediana<=média (assimetria positiva)
Em distribuições unimodais perfeitamente simétricas tem-se média=moda=mediana.
Assimetria positiva - distribuição unimodal
média>mediana>moda
A distribuição apresenta maior concentração nos menores valores.
Assimetria negativa - distribuição unimodal
média<mediana<moda
A distribuição apresenta maior concentração nos valores mais altos.
Distribuição unimodal simétrica
Medidas de assimetria e curtose
As = 3 ( Média - Mediana ) / Desvio Padrão
Quando uma distribuição unimodal é simétrica tem-se Média = Mediana = Moda.
Numa distribuição unimodal, se Média < Mediana < Moda dizemos que ela
é assimétrica à esquerda ou negativamente assimétrica;
se Média > Mediana > Moda, dizemos que ela é assimétrica à direita ou positivamente assimétrica.
MEDIDAS DE CURTOSE
• Grau de achatamento de uma distribuição em relação a uma distribuição padrão, denominada curva normal (curva correspondente a uma distribuição teórica de probabilidade).
• Quando a distribuição apresenta uma curva de freqüência mais fechada que a
normal (ou mais aguda ou afilada em sua parte superior), ela recebe o nome de leptocúrtica.
• Quando a distribuição apresenta uma curva de freqüência mais aberta que a
normal (ou mais achatada em sua parte superior), ela recebe o nome de platicúrtica.
Coeficiente de curtose C1 = (Q3 - Q1) / 2(P90 - P10)
Este coeficiente é conhecido como percentílico de curtose.
Relativamente a curva normal, temos:
C1 = 0,263 curva mesocúrtica C1 < 0,263 curva leptocúrtica
Exemplo: Distribuição Bimodal
Você acha que a média é uma boa medida de posição nesse caso? E a mediana? Por que?
Box Plot (desenho esquemático)
Bioestat
• O BioEstat é programa gratuito para estudantes de graduação e pós-graduação, pesquisadores e professores, com 210
aplicativos estatísticos de fácil uso pelos iniciantes, voltados sobretudo para as áreas das ciências biológicas e médicas. • Este programa contém o Manual (em formato de arquivo
"pdf") que orienta o usuário com indicações simples e
precisas para cada teste, exemplos práticos, gráficos de uso mais frequente, glossário vinculado à biometria e fórmulas estatísticas referentes aos aplicativos do BioEstat.
Bioestat
• A licença de uso deste programa também é gratuita, sendo permitida a instalação em vários computadores. Para outras informações, envie um e-mail para
• http://www.mamiraua.org.br/pt-br/downloads/programas/bioestat-versao-53/
• No que segue veremos alguns exemplos de uso do bioestat para calcular medidas-resumo e construir gráficos.
Exemplo 1
• Em um grupo de 80 alunos foi feita uma pesquisa
sobre hábitos de leitura. Uma das questões referia-se
que tipo de leitura eles mais gostavam: revistas,
jornais, livros de ficção, livros não-ficção, outros.
Após digitar as respostas verificou-se que 18
preferiam revistas, 25, jornais, 15 preferiam ficção,
13, não ficção e 9, outros.
Exemplo 1
18 25 15 13 9No Bioestat entramos com esses números que são as
frequências absolutas de preferências e depois solicitamos a janela de gráficos escolhendo a opção “setores”.
Exemplo 2:
• As idades dos 80 alunos também foram observadas e seus valores foram 18,18,18,18,18,18,18,18,18,18,19,19,19,19,19,19, 19,19,19,19,19,19,19,19,19,20,20,20,20,20,20,20, 20,20,20,20,20,20,20,20,20,20,20,20,20,21,21,21, 21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21, 21,21,21,21,22,22,22,22,22,23,25,25,26,26,27,35.
Atividades sugeridas
• Resolva os exercícios da lista #01 usando o
Bioestat.
Bibliografia:
• Berquó, E. e outros (1981). Bioestatística.
• Bisquerra, Sarriera, Martínez (2004). Introdução à Estatística. • Bussab e Morettin. (2002). Estatística Básica.
• Dancey e Reidy. (2012). Estatística sem Matemática para
Psicologia.
• Medronho, e outros. (2005). Epidemiologia.
• Montgomery, D. e Runger, G. (2003). Estatística Aplicada e Probabilidade para Engenheiros.