• Nenhum resultado encontrado

V.3. INFORMAÇÕES NECESSÁRIAS PARA A AULA 3

N/A
N/A
Protected

Academic year: 2021

Share "V.3. INFORMAÇÕES NECESSÁRIAS PARA A AULA 3"

Copied!
7
0
0

Texto

(1)

ESTATÍSTICAS DESCRITIVAS

São estatísticas que trazem informações sobre a posição, a dispersão e a distribuição de um conjunto de valores numéricos.

As principais estatísticas descritivas são: Medidas de posição, Medidas de dispersão e Medidas separatrizes.

A maioria dos softwares estatísticos tem um módulo que apresenta um conjunto dessas estatísticas.

Medidas de posição: São medidas que indicam um ponto em torno do qual se concentram os dados (a posição dos dados na reta real R). Sejam x1, x2, x3, ..., xn, n

valores numéricos.

As medidas de posição mais usuais são: média aritmética, média ponderada, mediana, moda.

Algumas propriedades das medidas de posição:

• A média é calculada a partir de todas as observações.

• A mediana não é prejudicada pela presença valores extremos, como é a média. • Somando-se, subtraindo-se ou multiplicando-se os valores a uma constante, a média

ficará somada, subtraída ou multiplicada pela constante.

• A soma dos desvios em relação à média é nula, ou seja, ∑(xix)=0

• A propriedade (a.3) é de extrema importância quando trabalhamos com unidades diferentes dos dados (kg, g, km, m etc.).

Medidas de dispersão: Como o próprio nome diz, são medidas que indicam quão dispersos encontram-se os valores.

As medidas de dispersão mais usuais são: Amplitude, Variância, Desvio Padrão, Erro Padrão da Média.

• Algumas propriedades das medidas de dispersão:

• A variância não tem a mesma unidade dos dados, o que ocorre com o desvio padrão. • A soma dos quadrados dos desvios em relação à média aritmética (SQ) é a menor soma

de desvios ao quadrado, ou seja: ∑(xix)2 ≤ ∑(xiM)2 , ∀ M.

Somando-se ou subtraindo-se os valores a uma constante, a variância e a soma de quadrados não se alteram.

Multiplicando-se os valores a uma constante, a variância e a soma de quadrados ficarão multiplicadas pela constante ao quadrado.

Medidas separatrizes São medidas que representam as posições dos valores do conjunto, dividindo-o em partes iguais e podem ser: quartis, decis etc.

(2)

Os quartis dividem o conjunto de valores em quatro partes iguais, como mostra a Tabela a seguir:

Tabela 1 - Descrição dos quartis.

Estatística Notação Interpretação

1º quartil q1 25% dos dados o precedem 2º quartil q2 = Mediana 50% dos dados o precedem 3º quartil q3 75% dos dados o precedem A diferença (q3-q1) é denominada intervalo interquartílico.

TESTES DE HIPÓTESES Introdução

Hipótese estatística: pode ser definida como uma afirmação sobre a distribuição de uma variável aleatória (no geral sobre seus parâmetros).

Exemplos: Em uma população com média µ e variância σ2, possíveis hipóteses seriam H:µ=0; H:µ>50; H:µ≠0; H:σ2=100; H:σ2<10.

A hipótese estatística pode ser simples ou composta:

 Simples: se a hipótese especifica completamente a distribuição (H:µ=0, H:σ2=100).  Composta: se a hipótese não especifica completamente a distribuição (H:µ>50,

H:σ2<10).

Teste de hipóteses: Como o próprio nome diz, são critérios estatísticos que permitem rejeitar ou não hipóteses testadas, com determinado grau de confiança, baseados em valores amostrais.

Os testes de hipóteses, no geral, apresentam duas hipóteses:

 Hipótese nula (ou da nulidade), geralmente representada por H0, que é a hipótese

natural colocada à prova.

 Hipótese alternativa, geralmente representada por H1 ou HA, que é a hipótese

alternativa à hipótese colocada à prova. Os testes de hipóteses devem seguir os passos: Passo 1. Estabelecer as hipóteses (H0 e H1).

Passo 2. Estabelecer o Nível de Confiança do teste (α). 1-α é o nível de confiança do teste.

Passo 3. Obter uma estatística, com distribuição conhecida, que fique completamente definida sob H0.

Passo 4. Estabelecer os critérios do teste.

(3)

Erro tipo I: Erro que se comete ao rejeitar H0, dado que ela é verdadeira,

geralmente representado por α, e denominado nível de significância do teste.

Erro tipo II: Erro que se comete ao não rejeitar H0, dado que ela é falsa.

O critério mais comum em testes de hipóteses é fixar o erro Tipo I (nível de significância do teste).

Passo 5. Calcular o valor da estatística, item (2), para os valores da amostra. Passo 5. Aplicar o critério do teste.

5.2 Exemplo de Aplicação

Para exemplificar, apresentemos esses passos em uma situação prática:

Exemplo: A quantidade de calorias de um produto (v.a. X) é tal que X~ N(µ,σ2

).onde µ=média populacional e σ2=variância populacional. Para a indústria, µ=31, mas para os concorrentes µ≠31. Para avaliar o produto foi tirada uma amostra de tamanho 25, cujos valores são apresentados a seguir:

30,55 29,88 28,95 31,72 31,57 34,94 35,00 34,98 32,25 31,09 32,42 32,26 30,75 33,78 33,90 31,96 31,93 33,42 30,41 34,13 28,48 33,57 31,51 30,35 30,20

Média Amostra=32,0 e Variância amostral=3,43 Passo 1. Hipóteses a serem testadas: H0:µ=31 e H1: µ ≠ 31.

Passo 2. Sabe-se que

2 X S N µ − =

T ~ t(n-1), ou seja, T tem distribuição t de Student com

(n -1) graus de liberdade (X=média amostral e S2=variância amostral). Passo 3. Fixando-se α=0,05 (5%), tem-se pela tabela da distribuição t, tt=xx.

Região Crítica (Região de rejeição de H0) = (-∞;-xx] ∪ [xx;+∞).

Passo 4. Calcula-se o valor da estatística para os valores amostrais: 32, 0 31

3, 43 25 C t = − = 2,70 α αα α=0,025 αααα=0,025 p-valor=0,0125 p-valor=0,0125 tc=2,70 -xx xx

(4)

Passo 5. Aplicar o critério do teste.

Como tcpertence à região crítica do teste (p-valor < α), rejeita-se H0 em favor de H1, ao

nível de 5% de probabilidade (Nível de confiança=1-α).

Conclusão: Ao nível de 5% de probabilidade rejeita-se a hipótese da média de calorias ser 31 (H0) em favor da hipótese da média de calorias ser diferente de 31 (H1).

Os resultados dos testes geralmente apresentam o p-valor (p-value) dos testes, que é a área limitada pelo valor da estatística calculada. Se o p-valor for menor que o nível de significância do teste, o teste é significativo e rejeita-se H0 em favor de H1 a esses nível

de significância.

 Procedimentos SAS

 PROC FREQ

Finalidade: Criar tabelas de freqüência. A Tabela conterá a freqüência, as porcentagens em relação ao total geral, as porcentagens em relação ao total das linhas e as porcentagens em relação ao total de colunas. Sintaxe: PROC FREQ < opções1 >;

TABLE < variável A > [* < variável B >] / < opções2 >; Algumas das <opções1> são:

 DATA= <SDS> - especifica O Sas-Data-Set a ser usado

 PAGE – especifica para imprimir, no OUTPUT, uma tabela por página. Algumas das <opções2> são:

 NOFREQ – Não apresenta as freqüências

 NOPERCENT – Não apresenta as porcentagens em relação ao total geral  NOROW – Não apresenta as porcentagens em relação ao total de linhas  NOCOL – Não apresenta as porcentagens em relação ao total de linhas  EXPECTED – Apresenta os valores esperados

 CHISQ – Realiza o teste Qui-Quadrado para a independência das variáveis  EXACT - Realiza o teste Exato de Fischer para a independência das variáveis

 PROC TTEST

Finalidade: Teste t de Student para comparação das médias de 2 grupos. Sintaxe: PROC TTEST < opções >;

CLASS < variável >;

Uma das <opções> :

 DATA= <SDS> - especifica O Sas-Data-Set a ser usado 

Variável que classifica os grupos

(5)

 LISTA DE EXERCÍCIOS - AULA 3

1. Digitar os Dados a seguir no Excel e criar um arquivo ASC (L3E1.TXT)

Y1 72,5 69 75 70,8 71,2 73 70 67,1 71 72 73 68 69 69,9 70,1 71 74 72 Y2 72 69,1 75 70,9 71 72,9 69,9 37 71,1 71,9 73 68,2 68,9 70 70 71,1 74 72

Fazer um programa no SAS para:

a) Colocar comentários informando: o número da lista e do exercício, a data e o nome do programador.

b) Definir as opções para o OUTPUT: Tamanho da linha=78, tamanho da página=64. c) Criar um arquivo SAS, a partir do arquivo L3E3.TXT.

d) Imprimir o arquivo.

1.a. Obter as estaísticas descritiva: Média, Mediana, Variânca, Desvio Padrão, Erro Padrão da Media, o 1o., 2o. e 3o. quartiz.

1.b. Obter o intervalo de confiança para a média de Y1 (Y1). 1.c. Testar a Hipótese: H0: Y1 =70.

2. Fazer um programa no SAS para:

a) Colocar comentários informando: o número da lista e do exercício e a data.

b) Definir as opções para o OUTPUT: Tamanho da linha=78, tamanho da página=64. c) Criar um arquivo SAS a partir dos dados:

T1 760 755 758 761 755

T2 758 748 757 753 755

d) Imprimir o arquivo.

e) Aplicar o test t para testar a hipótese: H0: T1 =T2.

c) Substituir as 2 primeiras repetições de T2 por 708 e 798, respectivamente, e ver o que acontece.

3. Fazer um programa no SAS para:

a) Ler os dados L3E1.DAT (Diâmetro do folículo 1 a 3; Qualidade do folículo 1 a 3 e qualidade do oócito 1 a 2). Observe que os dados não estão separados por espaços. b) Fazer o Teste Qui-quadrado.

4. Fazer um programa no SAS para fazer o teste Qui-quadrado e o teste Exato de Fisher para a tabela de contingência:

RESULTADO DO ACASALAMENTO

RAÇA fecundo infecundo

Charolesa 52 128

(6)

V.4.

INFORMAÇÕES NECESSÁRIAS PARA A AULA 4

 Procedimentos

 PROC UNIVARIATE

Finalidade: Apresenta as estatísticas descritivas necessárias para um diagnóstico da distribuição dos dados.

Sintaxe: PROC UNIVARIATE < opções >; Algumas opções:

 NORMAL – Faz o teste de normalidade. Teste de Shapiro-Wilk (W) se o número de observações for <2000, caso contrário o teste de Kolmogorov (D).  PLOT – Gera um gráfico de ramos e folhas que permite interpretar certas

características da distribuição e um gráfico contendo os valores esperados, caso a distribuição for normal (+), e os valores observados (*).

 PROC INSIGHT

Finalidade: Entra no modo interativo do SAS. 1. Sintaxe via programa:

PROC INSIGHT DATA=<SDS>; DIST Var ;

RUN;

2. Sintaxe via menu: Seleciona as opções:

Globals / Analyze / Interactive data analysis a) Seleção do arquivo:

 Selecione o caminho. Campo LIBRARY.  Selecione o arquivo. Campo DATA SET.  Selecione Open

b) Selecione na planilha a variável que vai estudar  Um clique no cabeçalho da Coluna

c) Selecione as opções: Analyze / Distribution(Y)

Até este ponto, em qualquer uma das opções chegarão no mesmo local Aqui pode-se pedir, entre muitas coisas:

 Teste de Normalidade: Curves / Test for Distribution  Gráfico da normal: Curves / Parametric density  Tabela de Freqüências: Tables / Frequence table

(7)

 LISTA DE EXERCÍCIOS - AULA 4

1. Fazer um programa no SAS para: A partir dos dados:

Y1 72,5 69 75 70,8 71,2 73 70 67,1 71 72 73 68 69 69,9 70,1 71 74 72

Y2 72 69,1 75 70,9 71 72,9 69,9 37 71,1 71,9 73 68,2 68,9 70 70 71,1 74 72 a) Digitar os dados no Exel (L4E1.xls).

b) Fazer um diagnóstico da normalidade (análise exploratória) utilizando os gráficos apropriados.

c) Fazer o teste de normalidade dessas variáveis.

d) Refazer os itens b) e c) usando o módulo SAS INSIGHT. 2. Fazer um programa no SAS para:

a) Gerar 1000 dados com distribuição Normal com média 0 e Variância 1.

e) Fazer uma análise exploratória da distribuição e o teste de normalidade dessas variáveis (Usando o PROC UNIVARIATE e usando o SAS INSIGHT).

3. Fazer um programa no SAS para:

b) Gerar 500 dados com distribuição Normal com média 10 e Variância 25.

f) Fazer uma análise exploratória o teste de normalidade dessas variáveis da distribuição (Usando o PROC UNIVARIATE e usando o SAS INSIGHT).

Referências

Documentos relacionados

A Santa Casa de Votuporanga – Núcleo de Atenção à Saúde, no uso de suas atribuições legais, torna público aos interessados que estarão abertas, no período de 30 de Março de

One of the main strengths in this library is that the system designer has a great flexibility to specify the controller architecture that best fits the design goals, ranging from

O presente trabalho teve os seguintes objetivos: (1) determinar as alterações na composição químico-bromatológica e nas frações protéicas e de carboidratos, determinar as taxas

* Observar e anotar quanto tempo a água ficou pingando e o quanto dela foi liberado em cada amostra de solo, marcando com uma canetinha em seu suporte (parte da

Ambas as versões do dinheiro analisados em relação à oposição tipológica entre teranga e business emergem protagonistas de alguns dos agenciamentos (CALLON, 2013) que

Para o Planeta Orgânico (2010), o crescimento da agricultura orgânica no Brasil e na América Latina dependerá, entre outros fatores, de uma legislação eficiente

Para identificar manifestações do pensamento algébrico, relacionadas ao pensamento funcional (Quadro 1), evidenciadas pelos estudantes durante a resolução das duas

&#34;Não há motivo para o exeqüente recusar a nomeação de precatório à penhora, mormente quando se trate de título representativo de débito da própria