A PROC TTEST desempenha um teste de hipótese para checar se a média de duas populações são iguais. Uma estatística t para o teste é calculada, assumindo que as variâncias são iguais para os dois grupos. Uma estatística T aproximada é calculada, assumindo que as variâncias são diferentes. Para testar a igualdade das variâncias é calculada uma estatística F. Para cada uma das estatísticas T e F são associados os respectivos graus de liberdade e probabilidades de significância (p-valor). Se o p-valor é menor que o nível de significância associado ao teste, o resultado é estatisticamente significante, e a hipótese nula é rejeitada, ou seja, as médias para os dois grupos são significativamente diferentes.
Treinamento Sistema – SAS 57 Prof. Luis Felipe Lopes Os testes paramétricos que envolvem observações pareadas serão abordados no item 9.2. Os testes não paramétricos serão assunto do próximo capítulo.
FORMA GERAL:
PROC TTEST DATA = arquivo de dados; CLASS variável;
VAR variável; RUN;
COMANDOS DISPONÍVEIS:
CLASS nomeia a variável que forma os grupos. Estes grupos podem assumir somente dois valores distintos, uma vez que o teste utilizado é para comparação de duas médias.
VAR nomeia a variável cuja média será comparada. Se o comando VAR for omitido, todas as variáveis numéricas contidas no arquivo de entrada (exceto as que aparecem no comando CLASS) serão incluídas na análise.
Ex6.: Dados não pareados com variâncias desconhecidas e supostamente iguais. Sejam amostras obtidas de dois tipos de cabo de aço em relação à carga de ruptura. Ao nível de significância de 5% pode-se concluir que o cabo do tipo l seja mais resistente que o do tipo 2 ?
Carga de Ruptura (Kgf) Tipo 1 Tipo 2 760 755 758 761 755 758 748 757 753 755 OPTIONS FORMDLIM='*' LS=80; DATA CABO A; /* EXEMPL06 SAS */ INPUT TIPO $ CARGA @@;
CARDS; Tl 760 T2 758 Tl 755 T2 748 Tl 758 T2 757 Tl 761 T2 753 Tl 755 T2 755 ; PROC TTEST; CLASS TIPO; VAR CARGA;
TITLE 'TESTE PARA IGUALDADE DE MEDIAS'; RUN;
Treinamento Sistema – SAS 58 Prof. Luis Felipe Lopes
ANÁLISE DOS RESULTADOS:
TESTE PARA IGUALDADE DE MEDIAS TTEST PROCEDURE
Variable: CARGA
TIPO N Mean Std Dev Std Error Minimum Maximum --- T1 5 757.8000000 2.77488739 1.24096736 755.0000000 761.0000000 T2 5 754.2000000 3.96232255 1.77200451 748.0000000 758.0000000 Variances T DF Prob>|T| --- Unequal 1.6641 7.2 0.1392 Equal 1.6641 8.0 0.1347
For H0: Variances are equal, F' = 2.04 DF = (4,4) Prob>F' = 0.5072
Para comparar dois grupos independentes observa-se primeiramente a linha que testa a igualdade de variâncias. O p-valor para este teste é dado por
PROB>F'=0.5072 que é maior que 0.10, indicando que as variâncias não são
significantemente diferentes a um nível de 10% de significância.
Utiliza-se então o t-test exato. Para o teste da igualdade de médias, a linha denominada UNEQUAL dá o resultado de um t-test aproximado, que é utilizado quando não se pode assumir a igualdade das variâncias os dois grupos de observações.
O p-valor para o t-test é PROB > ITI = 0.1347 que é maior que 0.05, indicando que ambas as médias para o cabo do tipo 1 e tipo 2 não são significativamente diferentes ao nível de 5% de significância. Valores altos para estatística T indicam diferenças significativas entre as médias. Para o teste exato, o grau de liberdade DF é calculado como a soma dos tamanhos das amostras dos dois grupos menos dois (8 = 5 + 5 - 2).
Ex7.: Dados não pareados com variâncias desconhecidas e supostamente diferentes.
Deseja-se saber se duas máquinas de empacotar café estão fornecendo o mesmo peso médio por pacote, tanto como uma das máquinas é nova e a outra velha, é razoável supor-se que trabalhem com diferentes variabilidades dos pesos colocados nos pacotes. As amostras disponíveis constam de seis pacotes produzidos pela máquina nova e nove produzidos pela máquina velha. Os pesos em quilogramas desses pacotes são:
máquina nova 0,82 0,83 0,79 0,81 0,81 0,80
máquina velha 0,79 0,82 0,73 0,74 0,80 0,77 0,75 0,84 0,78 Qual a conclusão, ao nível de 5% de significância ?
OPTIONS FORMDLIM='*' LS=80;
Treinamento Sistema – SAS 59 Prof. Luis Felipe Lopes
INPUT MAQUINA $ PESO @@, CARDS; NOVA 0.82 NOVA 0.83 NOVA 0.79 NOVA 0.81 NOVA 0.81 NOVA 0.80 VELHA 0.79 VELHA 0.82 VELHA 0.73 VELHA 0.74 VELHA 0.80 VELHA 0.77 VELHA 0.75 VELHA 0.84 VELHA 0.78 ;
PROC TTEST DATA=CAFE, CLASS MAQUINA;
TITLE 'TESTE PARA IGUALDADE DE MEDIAS – DADOS NÃO PAREADOS'; RUN;
ANÁLISE DOS RESULTADOS:
TESTE PARA IGUALDADE DE MEDIAS - DADOS NAO PAREADOS TTEST PROCEDURE
Variable: PESO
MAQUINA N Mean Std Dev Std Error Minimum Maximum --- NOVA 6 0.81000000 0.01414214 0.00577350 0.79000000 0.83000000 VELHA 9 0.78000000 0.03674235 0.01224745 0.73000000 0.84000000 Variances T DF Prob>|T| --- Unequal 2.2156 11.1 0.0486 Equal 1.8893 13.0 0.0814
For H0: Variances are equal, F' = 6.75 DF = (8,5) Prob>F' = 0.0501
O p-valor para o teste de igualdade de variâncias é dado por PROB >F'=0.0501 que é menor que 0.10, indicando que as variâncias são significativamente diferentes a um nível de 10% de significância. Para o teste de igualdade de médias, a linha denominada UNEQUAL deve ser utilizada. A um nível de 5% de significância há diferença significativa entre as médias dos pesos dos pacotes, pois PROB > ITI = 0.0486 < 0.05.
9.2 Testes para dados pareados
Os resultados de duas amostras constituem dados emparelhados (ou pareados) quando estão relacionados dois a dois segundo algum critério que introduz uma influência mercante entre os diversos pares. Esta influência incide igualmente sobre os valores de cada par.
Treinamento Sistema – SAS 60 Prof. Luis Felipe Lopes Assim, por exemplo, suponha que 10 cobaias sejam submetidas durante uma semana a uma dieta com certo tipo de ração. Os pesos das cobaias são medidos no início e no fim do tratamento, e deseja-se tirar conclusões sobre o aumento médio do peso verificado. Se os animais forem perfeitamente identificados, teremos duas amostras de valores do tipo 'antes' e 'depois', e os dados serão pareados, pois cada valor da palmeira amostra estará perfeitamente associado ao respectivo valor da segunda amostra. O critério que garante o emparelhamento é a identidade de cada cobaia. É razoável esperar que a identidade de cada animal tenha influência nos valores observados de seu peso, porém essa influência deve exercer-se de forma aproximadamente igual dentro de cada para de valores 'antes e depois', logo, ao se tomarem as diferenças entre vários pares de valores, a influência individual de cada animal tende a desaparecer, restando apenas os efeitos produzidos pela ração.
No mesmo exemplo, se os animais não fossem identificados, não haveria como associar os valores das duas amostras, e os dados seriam não- emparelhados.
Se os dados de duas amostras são emparelhados tem sentido calcular as diferenças “di” correspondentes a cada par de valores, reduzindo assim os dados a uma única amostra de n diferenças. Testa-se então a hipótese de que a diferença entre as médias das populações emparelhadas seja igual a um certo valor, reduzindo o problema ao teste de uma única média. As hipóteses a serem atendidas para validação deste teste são listadas baixo: