• Nenhum resultado encontrado

Estatística Aplicada II

N/A
N/A
Protected

Academic year: 2021

Share "Estatística Aplicada II"

Copied!
72
0
0

Texto

(1)

Estatística Aplicada II

• Profa. Flávia Landim

• E-mail:

[email protected]

• Aulas: quintas de 13h-18h20

• Início: 22 de agosto de 2013

• Avaliações: P1 10/10, P2 28/11. apresentação de

trabalhos: 5 e 12/12 (grupos de 3 alunos que

(2)

Estatística Aplicada II

• Ementa no SIGA:

Conceito de regressão associado à correlação entre variáveis. Conceito de ajustamento. Métodos de ajustamento e

aplicação à determinação das equações de regressão. Teoria elementar de probabilidades: princípios fundamentais. Distribuição binomial e

distribuição normal: propriedades e aplicações à psicologia. Noções de inferência estatística: estimação de parâmetros.

• Página com as informações da disciplina:

(3)

Estatística Aplicada II

• Referências (

livro-texto ainda a definir

)

• Estatística Básica: a arte de trabalhar com dados.

João Ismael, Sônia, Santiago e Gastão. Editora

Campus.

• Estatística sem Matemática para Psicologia. Dancey

e Reidy. Artmed.

(4)

Estatística: o que é?

• O primeiro uso da palavra ESTATÍSTICA parece datar do

final do século XVI, referindo-se a uma “

ciência civil,

política, estatística e militar

” em um trabalho do

historiador Girolomo Ghilini. (Berquó, 1981)

• As expressões “statistics”, “statist

” e “

statistical

são

derivadas do latim

status

com duplo significado:

(5)

O Estado da Estatística

Os primeiros usos da estatística envolviam compilação de dados e gráficos que descreviam vários aspectos de um estado ou país. Em 1662, John Gaunt publicou informação estatística acerca de

nascimentos e mortes. O trabalho de Gaunt foi seguido por estudos sobre taxas de mortalidade e de doenças, tamanhos de populações, renda e taxas de desemprego.

Os governos e as empresas se apoiam fortemente em dados estatísticos: taxas de desemprego, taxas de inflação, índices do consumidor, taxas de nascimento e morte são cuidadosamente compiladas de modo regular, e os dados resultantes são usados pelos gestores para tomar decisões que afetam futuras

(6)

Breve História da Estatística

• Nos séculos XVII e XVIII, a estatística voltou-se mais para cálculos de probabilidades.

• No século XIX, Laplace e Gauss começaram a aplicar a distribuição normal na explicação de fenômenos reais.

• Nesta época iniciou-se a aplicação da estatística na pesquisa em Ciências Sociais.

• No século XX difundiram-se os métodos multivariados para analisar conjuntamente várias variáveis.

(7)

Estatística: o que é ?

Para Sir Ronald A. Fisher (1890-1962):

Estatística é o estudo das populações, das

(8)

Estatística: o que é?

• ``Eu gosto de pensar na

Estatística como a ciência de

aprendizagem a partir dos

dados ... ´´

Jon Kettenring

(9)

Estatística: o que é?

Uma boa definição é:

“Estatística é um

conjunto de técnicas

e métodos que nos auxiliam no

processo de tomada de decisão na

(10)

Estatística: o que é?

Toda atividade humana é baseada em previsões e tomadas de decisão sob incerteza: - quando

entramos para a universidade; - quando arrumamos um emprego;

- quando um paciente é submetido a um tratamento; - quando investimos uma quantia no mercado de ações; etc.

(11)

Estatística: o que é?

• Calyampudi R. Rao (1920- ), um estatístico

importante, cujo trabalho teórico contribuiu

para os fundamentos da Estatística Moderna

apresentou a seguinte equação:

conhecimento

incerto +

conhecimento

da quantidade = conhecimento

Essa parte da equação representa um papel fundamental do estatístico

(12)

Alguns Exemplos de situações em que se usa

Estatística

• Mensuração das mudanças no meio-ambiente para avaliar os efeitos do aquecimento global.

• Mensuração da poluição do ar para avaliar os efeitos na saúde da população.

• Análise de experimentos sobre o uso de fertilizantes para maximizar a produção de um grão.

• Mensuração da eficácia de diferentes medicamentos para encontrar o melhor, e identificar efeitos colaterais.

• Cálculo de quão provável duas pessoas têm o mesmo perfil de DNA. • Estudo sobre hábitos migratórios de certo animal;

(13)

Conceitos Básicos

• População: conjunto de elementos com pelo menos

uma característica em comum. A população define o

universo que vai ser estudado.

(14)

Conceitos Básicos

• Parâmetro –

é uma característica numérica da

população.

• Estatística -

é uma característica numérica da

amostra.

(15)

Inferência Estatística

• Em linhas gerais podemos dizer que a Inferência Estatística está voltada para fazer afirmações sobre toda a população, quando se conhece apenas uma amostra da população. • Desejamos fazer afirmações sobre parâmetros, usando

estatísticas.

• É claro que estaremos sujeitos a variações inerentes ao processo de amostragem e será muito importante saber quantificar a incerteza associada à inferência realizada.

(16)
(17)

Probabilidade

• A ferramenta matemática usada para

quantificar incertezas é a teoria das

probabilidades.

• Noções básicas de probabilidade serão objeto

de estudo nesta disciplina.

(18)

Etapas na análise estatística de dados

Amostragem–coleta de dados

Cálculo de Probabilidades

Estatística descritiva - Análise exploratória de dados –

organização dos dados

(19)

Estatística Básica

• Vamos tratar agora da etapa do processo de análise, chamada Análise Descritiva ou Análise Exploratória de Dados.

• Os dados precisam ser organizados em tabelas, gráficos ou mapas, e também usando-se medidas úteis que descrevem de alguma

forma o conjunto de dados.

• Em geral, é a partir desta análise que será proposto um modelo que descreva pelo menos razoavelmente a geração dos dados em

estudo.

• Não serão tratados aqui os tópicos sobre coleta e organização dos dados.

(20)

Escalas de medição e tipos de variáveis

• As escalas de medição são: nominal, ordinal, de contagem, intervalar e de razão.

• As técnicas estatísticas diferenciam-se em relação ao tipo de variável.

• As variáveis são classificadas em dois grandes grupos: categóricas ou qualitativas (escalas nominal e ordinal) e numéricas ou quantitativas (escalas de contagem,

(21)

Escalas intervalar e de razão

• A escala intervalar aproxima-se da concepção comum de medida, já que

possui uma unidade de medida constante. Entretanto, a origem desta

escala é arbitrária. Os exemplos mais comuns de escala de intervalo são as escalas de temperatura Celsius e Fahrenheit. Cada uma delas atribui um zero arbitrário.

• A escala de razão é a mais elaborada das escalas de medida, no sentido de

permitir todas as operações aritméticas. Essa escala possui um ponto zero único, além de unidade de medida constante. É a escala de medida mais comum nas ciências físicas, tais como as escalas para a medida de

(22)
(23)
(24)

Síntese numérica – medidas-resumo para variáveis

quantitativas

• As medidas a serem trabalhadas são de duas naturezas distintas, a saber,

• 1) medidas de posição – média aritmética, mediana, moda, percentis (quartis, quintis), buscam caracterizar valores que sejam representativos na distribuição de frequência dos

valores observados, e

• 2) medidas de dispersão – amplitude amostral. distância interquartílica, desvio médio, variância, desvio-padrão,

(25)

Medidas de Posição

• 1) Moda – realização mais frequente do conjunto de

valores observados. Em alguns casos, pode haver

mais de uma moda, ou seja, uma distribuição pode

ser bimodal, trimodal, multimodal. É possível

também que não exista moda, se todos os valores

ocorrerem com a mesma frequência.

(26)

Medidas de Posição

• 2) Mediana – é a realização que ocupa a posição central da série de observações, quando estão ordenadas em ordem crescente.

• Nota: se o número de observações é ímpar indica-se como mediana o valor que ocupa a posição (n+1)/2. Caso contrário, o usual é indicar como mediana a semi soma dos valores que ocupam as duas posições centrais, a saber, n/2 e n/2+1.

(27)

Medidas de Posição

• 3) Média aritmética – soma das observações dividida pelo número de observações.

• Formalizando, se x1, x2, ..., xn são n valores observados

num conjunto de dados, a média aritmética é dada por

      n i n i n n x x x x x 1 2 1 1 ...

(28)

Medidas de posição

• 4) Percentis: são 99 medidas que dividem a

distribuição de frequências em 100 partes de

frequência 1% tal que o p-ésimo percentil,

p

=1,2,...,99, corresponde a um valor para o qual p%

dos valores observados são menores ou iguais a ele.

• Notação: (P1, P2, ..., P10, ..., P99)

(29)

Percentis Especiais

• Quartis: são três medidas, Q1, Q2 e Q3, que dividem a

distribuição em quatro partes de frequências iguais a 25%.

• Q1 – primeiro quartil – 25% dos valores são menores ou iguais a Q1

• Q2– segundo quartil – 50% dos valores são menores ou iguais a Q2 (Observe que Q2 coincide com a mediana)

• Q3 – terceiro quartil – 75% dos valores são menores ou iguais a Q3

(30)
(31)

Percentis especiais

• Quintis

– são quatro medidas que dividem a

distribuição em 5 partes de frequências iguais

a 20%. (P20,P40,P60,P80)

• Decis

– são 9 medidas que dividem a

distribuição em 10 partes de frequências

iguais a 10%.(P10,P20, ..., P90)

(32)

Medidas de dispersão

• 1)

Amplitude amostral

– é a diferença entre o

maior valor e menor valor observados.

• 2)

Distância interquartílica

– é a diferença

entre o terceiro e primeiro quartis.

(33)

Medidas de Dispersão

• Sejam x1, x2, ..., xn os n valores observados num conjunto de

dados, e a média. Define-se como desvios da média as diferenças:

x

x

x

i

Em qualquer conjunto de dados a soma dos desvios da média será sempre nula, pois os desvios positivos com- pensam-se com os desvios negativos.

(34)

Variância amostral

• A variância amostral é uma média dos

quadrados dos desvios da média definida

por:

n i i

x

x

n

s

1 2 2

1

1

(35)

Desvio-padrão amostral

• O desvio-padrão amostral (s) é a raiz quadrada

positiva da variância amostral.

• O desvio-padrão tem a mesma unidade de

medida das observações e poderá ser

(36)
(37)

Como comparar desvios padrão?

• Como as escalas dos valores podem ser diferentes não há como dizer se um conjunto é mais disperso em relação a sua média apenas olhando o valor do seu desvio-padrão.

• Um desvio padrão igual a 1 u pode ser grande ou pequeno dependendo da magnitude dos valores observados.

• Se dois conjuntos têm desvios-padrões iguais, como classificar o mais disperso em relação à média?

(38)

Coeficiente de variação amostral

• É a razão entre desvio-padrão e média.

Em geral é apresentado em termos

percentuais sendo multiplicado por 100.

• É útil na avaliação da magnitude da

(39)

Tipos de gráficos

• Setores, barras, linha, histograma, ramo-folhas,

box

plot

(diagrama de caixa), etc.

• Os gráficos de setores e barras são adequados para

variáveis categóricas (qualitativas).

• Nesses gráficos, a única escala a ser considerada é a

escala de frequência dos diferentes tipos de resposta

observados para a variável categórica.

(40)

Em geral, recomenda-se não usar este tipo de gráfico, quando o número de

Gráfico de setores

(41)

Gráfico de setores

Observe que há apenas 4

respostas diferentes, mas não dá para perceber diferenças entre centro, norte e sul.

(42)

Gráfico de barras

Agora é possível perceber as diferenças entre as frequências observadas.

(43)

Gráfico de barras

As barras que representam as frequências de cada resposta podem ser dispostas de forma horizontal ou vertical.

(44)

Gráfico de linha

• Adequado para representar observações feitas

ao longo do tempo.

• A série deve apresentar no mínimo 5

observações.

(45)

20

40

60

Nº de casos no município do Rio

(46)

Histograma

• É usado para representar a distribuição de

frequências de uma variável quantitativa

contínua cujos valores observados foram

agrupados em intervalos de classe.

• O gráfico é composto por retângulos

adjacentes cuja área é igual a frequência da

classe correspondente.

(47)
(48)

Ramo-e-folhas

• É um gráfico alternativo ao histograma.

• A vantagem do ramo-e-folhas em relação ao

histograma é que não há perda de

informação.

• No histograma as observações individuais

estão agrupadas em classes.

(49)
(50)

Medidas de posição: média e mediana

A média é a soma dos valores observados

sobre o número de observações (média

aritmética).

No histograma ela representa o ponto de

(51)
(52)

Média versus mediana

é mais fácil de ser manipulada algebricamente;

representa o centro de massa dos dados.

É muito afetada por valores extremos.

é mais difícil de ser manipulada algebricamente;

é o valor que ocupa a posição central quando os dados estão ordenados; (divide o histograma correspondente em duas partes de áreas iguais).

(53)

Distribuições unimodais

Em distribuições unimodais tem-se sempre a mediana entre a média e a moda:

ou média<=mediana<=moda (assimetria negativa) ou moda<=mediana<=média (assimetria positiva)

Em distribuições unimodais perfeitamente simétricas tem-se média=moda=mediana.

(54)

Assimetria positiva - distribuição unimodal

média>mediana>moda

A distribuição apresenta maior concentração nos menores valores.

(55)

Assimetria negativa - distribuição unimodal

média<mediana<moda

A distribuição apresenta maior concentração nos valores mais altos.

(56)

Distribuição unimodal simétrica

(57)

Medidas de assimetria e curtose

As = 3 ( Média - Mediana ) / Desvio Padrão

Quando uma distribuição unimodal é simétrica tem-se Média = Mediana = Moda.

Numa distribuição unimodal, se Média < Mediana < Moda dizemos que ela

é assimétrica à esquerda ou negativamente assimétrica;

se Média > Mediana > Moda, dizemos que ela é assimétrica à direita ou positivamente assimétrica.

(58)
(59)

MEDIDAS DE CURTOSE

• Grau de achatamento de uma distribuição em relação a uma distribuição padrão, denominada curva normal (curva correspondente a uma distribuição teórica de probabilidade).

Quando a distribuição apresenta uma curva de freqüência mais fechada que a

normal (ou mais aguda ou afilada em sua parte superior), ela recebe o nome de leptocúrtica.

Quando a distribuição apresenta uma curva de freqüência mais aberta que a

normal (ou mais achatada em sua parte superior), ela recebe o nome de platicúrtica.

(60)

Coeficiente de curtose C1 = (Q3 - Q1) / 2(P90 - P10)

Este coeficiente é conhecido como percentílico de curtose.

Relativamente a curva normal, temos:

C1 = 0,263 curva mesocúrtica C1 < 0,263 curva leptocúrtica

(61)
(62)

Exemplo: Distribuição Bimodal

Você acha que a média é uma boa medida de posição nesse caso? E a mediana? Por que?

(63)

Box Plot (desenho esquemático)

(64)

Bioestat

• O BioEstat é programa gratuito para estudantes de graduação e pós-graduação, pesquisadores e professores, com 210

aplicativos estatísticos de fácil uso pelos iniciantes, voltados sobretudo para as áreas das ciências biológicas e médicas. • Este programa contém o Manual (em formato de arquivo

"pdf") que orienta o usuário com indicações simples e

precisas para cada teste, exemplos práticos, gráficos de uso mais frequente, glossário vinculado à biometria e fórmulas estatísticas referentes aos aplicativos do BioEstat.

(65)

Bioestat

• A licença de uso deste programa também é gratuita, sendo permitida a instalação em vários computadores. Para outras informações, envie um e-mail para

[email protected].

• http://www.mamiraua.org.br/pt-br/downloads/programas/bioestat-versao-53/

• No que segue veremos alguns exemplos de uso do bioestat para calcular medidas-resumo e construir gráficos.

(66)

Exemplo 1

• Em um grupo de 80 alunos foi feita uma pesquisa

sobre hábitos de leitura. Uma das questões referia-se

que tipo de leitura eles mais gostavam: revistas,

jornais, livros de ficção, livros não-ficção, outros.

Após digitar as respostas verificou-se que 18

preferiam revistas, 25, jornais, 15 preferiam ficção,

13, não ficção e 9, outros.

(67)

Exemplo 1

18 25 15 13 9

No Bioestat entramos com esses números que são as

frequências absolutas de preferências e depois solicitamos a janela de gráficos escolhendo a opção “setores”.

(68)
(69)

Exemplo 2:

• As idades dos 80 alunos também foram observadas e seus valores foram 18,18,18,18,18,18,18,18,18,18,19,19,19,19,19,19, 19,19,19,19,19,19,19,19,19,20,20,20,20,20,20,20, 20,20,20,20,20,20,20,20,20,20,20,20,20,21,21,21, 21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21, 21,21,21,21,22,22,22,22,22,23,25,25,26,26,27,35.

(70)

Atividades sugeridas

• Resolva os exercícios da lista #01 usando o

Bioestat.

(71)
(72)

Bibliografia:

• Berquó, E. e outros (1981). Bioestatística.

• Bisquerra, Sarriera, Martínez (2004). Introdução à Estatística. • Bussab e Morettin. (2002). Estatística Básica.

• Dancey e Reidy. (2012). Estatística sem Matemática para

Psicologia.

• Medronho, e outros. (2005). Epidemiologia.

• Montgomery, D. e Runger, G. (2003). Estatística Aplicada e Probabilidade para Engenheiros.

Referências

Documentos relacionados

Eles deverão ser repassados para a Instituição de Origem, gestora da proposta e esta deverá aplicá-lo na Instituição de Destino, como parte da execução da

Nas tabelas 4, 5 e 6, encontram-se os valores descritivos (média e desvio padrão) e os resultantes de estatística inferencial (valor U e valor p), para as

Com um programa de análise de imagens (KS300-Zeiss®), realizaram-se densitometria óssea e a análise morfométrica da reabsorção radicular e da perda óssea em altura. A análise

Novamente são obtidos melhores resultados no grupo experimental, ao qual dizem respeito os maiores valores para os ganhos residuais corrigidos. 27: Distribuição dos Ganhos

Se nesta primeira análise, um dos dois valores for considerado disperso, ele é rejeitado, retirado do conjunto e novo teste, verificando a existência de um valor disperso em cada

Para saber como o amostrador Headspace 7697A da Agilent pode ajudar a alcançar os resultados esperados, visite www.agilent.com/chem/7697A Abund.. Nenhum outro software

O Ministério do Trabalho aprova o quadro das atividades e operações insalubres e adota normas sobre os critérios de caracterização da insalubridade, os limites de tolerância

As abraçadeiras tipo TUCHO SIMPLES INOX , foram desenvolvidas para aplicações que necessitam alto torque de aperto e condições severas de temperatura, permitin- do assim,