• Nenhum resultado encontrado

Comparação de matrizes de covariâncias de populações normais dependentes: um estudo de caso.

N/A
N/A
Protected

Academic year: 2017

Share "Comparação de matrizes de covariâncias de populações normais dependentes: um estudo de caso."

Copied!
4
0
0

Texto

(1)

CIRILLO, M. A. et al. 1788

Ciênc. agrotec., Lavras, v. 33, Edição Especial, p. 1788 -1791, 2009

COMUNICAÇÃO

COMPARAÇÃO DE MATRIZES DE COVARIÂNCIAS DE POPULAÇÕES

NORMAIS DEPENDENTES: UM ESTUDO DE CASO

Comparing the covariance matrices of dependent normal populations: a case study

Marcelo Angelo Cirillo1, Daniel Furtado Ferreira2, Thelma Sáfadi3

RESUMO

Inferências sobre comparações de matrizes de covariâncias em populações normais dependentes são usualmente obtidas considerando testes assintóticos baseados na maximização de funções de verossimilhanças. Entretanto, se o número de populações e/ ou de variáveis consideradas é excessivo pode-se ter problemas na convergência dos métodos numéricos utilizados para obtenção dos estimadores de máxima verossimilhança. Face a esse problema, objetivou-se, neste trabalho, ilustrar por meio de um conjunto de dados reais, a aplicação de um teste para comparar matrizes de covariâncias de populações correlacionadas, usando uma estatística baseada na razão de variâncias generalizadas, cuja distribuição empírica foi obtida por meio da técnica bootstrap.

Termos para indexação: Bootstrap, covariâncias, variâncias generalizadas.

ABSTRACT

Inferences about dependent normal populations are usually obtained considering asymptotic tests based on the maximization likelihood functions. However, if the number of populations and/or variables considered are too high one way have convergence problems with the numerical methods used to obtain the maximum likelihood estimators. This work aimed to illustrate, using a real data set, the application of a test to compare covariance matrices of correlated populations using a statistic based on generalized variances ratio, whose empirical distribution was obtained via bootstrap methods.

Index terms: Bootstrap, covariances, generalized variances.

(Recebido em 6 de junho de 2006 e aprovado em 27 de fevereiro de 2008)

1Doutor em Estatística e Experimentação Agropecuária – Departamento de Ciências Exatas/DEX – Universidade Federal de Lavras/UFLA – Cx. P. 3037 –

Lavras, MG – marcufla@gmail.com – Bolsista FAPEMIG

2PhD em Estatística e Experimentação Agropecuária, Professor Adjunto – Departamento de Ciências Exatas/DEX – Universidade Federal de Lavras/

UFLA – Cx. P. 3037 – Lavras, MG – danielff@ufla.br

3PhD em Estatística, Professora Adjunta – Departamento de Ciências Exatas/DEX – Universidade Federal de Lavras/UFLA – Cx. P. 3037 – Lavras, MG –

safadi@ufla.br

Entre as suposições exigidas para a realização da inferência estatística paramétrica, a suposição de que as amostras sejam independentes e provenientes de populações cujas distribuições são conhecidas, é primordial. No contexto multivariado, essas suposições também são exigidas para a realização de testes estatísticos. Assim, caso o objetivo do pesquisador seja o de comparar matrizes de covariâncias, os testes comumente encontrados na literatura, como os de Bartlett (O’BRIEN, 1992) e Levene (LEVENE, 1960) poderão ser utilizados. Entretanto, poderá haver casos em que as respostas são provenientes de populações cujas amostras são correlacionadas, levando a violação da suposição de independência exigida para os referidos testes. Se considerarmos a dependência entre as populações, tem-se que, em geral, os testes propostos na literatura, são baseados na razão de verossimilhanças (JIANG et al., 1999) e limitados em relação ao número de variáveis e de populações, uma vez que suas estatísticas

são baseadas em aproximações assintóticas da distribuição qui-quadrado (JIANG et al., 1999).

Uma outra questão que deve ser ressaltada é a complexidade de obter expressões analíticas para tais testes, além do mais, problemas numéricos para maximização das verossimilhanças considerado um maior número de variáveis e populações, comumente encontrado. Mediante esses problemas, como alternativa surge o uso de técnicas computacionais, das quais os métodos de computação intensiva, como técnicas de bootstrap são de grande importância, nas mais variadas situações reais (MANLY, 1997).

(2)

Ciênc. agrotec., Lavras, v. 33, Edição Especial, p. 1788 -1791, 2009

Comparação de matrizes de covariâncias... 1789

referente à análise do efeito do exercício de força sobre o estresse oxidativo no plasma de mulheres na terceira idade, realizado no período de 01/09 a 31/10/2004, no laboratório de Bioquímica Clínica do Departamento de Análises Clínicas e Toxicológicas da UNIFAL. Compararam-se as matrizes de covariâncias representadas por duas populações distintas dadas pelas situações em que as mulheres foram submetidas à avaliação antes e após quatro semanas de exercícios físicos.

A estatística do teste foi determinada em função da razão de variâncias generalizadas representada pela razão dos determinantes ( 1).

jj j 1

jj j

max S , min S

(1)

em que, Sjj correspondeu à matriz de somas de quadrados e produtos amostral da j-ésima população (j = 1, 2) .

Convém salientar que a geração das matrizes Sjj foi feita considerando a matriz dos desvios de cada observação, em relação à média

X

d. O uso dessa matriz foi necessário para que não houvesse a influência de possíveis médias diferentes entre as 2 populações consideradas no estimador das referidas matrizes de covariâncias. Assim, para evitar que essas matrizes considerando as p-variáveis de uma determinada população fosse afetada por esse efeito, optou-se por fazer toda a inferência, considerando as observações

X

d. AA matriz Sjj foi estimada por:

t

jj d d

S X QX (2)

em que a matriz de projeção é dada por Q I-(11 )/N.t ,

sendo 1 um vetor composto de 1.

A imposição da hipótese H0: S11=S22 versus S11¹S22 foi feita por meio da técnica bootstrap (CIRILLO, 2006). A aplicação do algoritmo se deu na amostra aleatória Xd, da qual estimou-se Sjj. Em cada reamostragem, obteve-se uma nova amostra denominada por Xdb, em que foi estimada a matriz de somas de quadrados e produtos, porém denominada por

S

*b em que o índice b representou a b-ésima (b=1,...,1000) reamostragem . Em cada simulação foram computados os valores l1(b) e confrontados com os valores de l1 obtidos na amostra original (expressão 1). O valor-p foi determinado como proporção dos valores de l1(b), obtidos por meio da distribuição empírica originada pelo método bootstrap que superaram os respectivos valores da estatística proveniente da amostra original

(expressão 1). Convém salientar que, nesse procedimento, evitaram-se todas as restrições dos métodos numéricos de maximização da função de verossimilhança, o que computacionalmente representou uma grande contribuição. Conforme mencionado anteriormente, as amostras foram avaliadas antes e após a realização de um exercício físico em quatro semanas, definindo-se, portanto, amostras de duas populações (k = 2). Em cada população foram mensurados 3 variáveis (p=3), respectivamente definida como proteínas T (g/dl); albumina (g/dl) e peróxido (nmol/ g de proteína). Preliminarmente à comparação dessas matrizes, realizou-se o teste de normalidade multivariada de Royston (1983) das kp = 6 variáveis, uma vez que, a construção dos testes se deu considerando as populações normalmente distribuídas e dependentes, Trata-se de uma situação de dados pareados, portanto caracterizando uma dependência entre os valores amostrais, assim, as duas situações avaliadas representadas pela realização do exercício físico antes e após quatro semanas, no contexto desse trabalho, caracterizaram as populações, nas quais desejou-se comparar as matrizes de covariâncias.

O valor da estatística do teste de normalidade, representada pelo valor de W = 0,925. O valor-p, obtido foi 0,6615, sendo a hipótese de normalidade multivariada não rejeitada em um nível de significância de 5%.

Em relação à comparação das matrizes de covariâncias, as hipóteses estatísticas a serem investigadas nesse trabalho foram definidas por:

0 antes depois

1 antes depois

H :

H : (3)

Seguindo uma análise exploratória dos dados amostrais, estimou-se a matriz de correlação para cada população por:

A D

1 1

R 0, 046 1 ; R 0, 420 1 . 0, 271 0, 032 1 0,581 0,148 1

(4)

Com base nos resultados exploratórios, referentes às matrizes de correlações estimadas para cada população RA e RD pode-se verificar que as variáveis utilizadas nesse estudo, representadas pelas quantidades de proteínas T (g/dl); albumina (g/dl) e peróxido (nmol/g de proteína) observadas antes e após quatro semanas de exercícios físicos apresentaram uma baixa correlação.

(3)

CIRILLO, M. A. et al. 1790

Ciênc. agrotec., Lavras, v. 33, Edição Especial, p. 1788 -1791, 2009 ressaltado é a questão de que o teste proposto nesse trabalho irá comparar matrizes de covariâncias populacionais, cujas amostras resultaram em matrizes de correlação livre do efeito da multicolinearidade.

Um outro aspecto sugere que a escolha dessas variáveis foi feita de forma adequada, pois todas as variáveis são relevantes, no sentido de que nenhuma delas apresentou uma forte correlação. Caso uma forte correlação entre duas variáveis fosse identificada, possivelmente uma delas poderia ser excluída da análise.

Sem perder o foco de comparar as matrizes de covariâncias dependentes, procede-se com a execução do teste considerando X como a matriz dos dados. Dessa forma, tem-se o vetor de médias

X

calculado por:

6, 53125

3, 99375

64, 2262 X

6, 7375

3, 76875

65, 5731

(5)

Para cada observação, os desvios em relação à média de cada variável foram estimados, originando-se, assim a matriz dos desvios

X

d dada por:

d

6, 0 6, 53125 3, 7 3, 99375 72, 3 65, 5731 6, 0 6, 53125 3, 5 3, 99375 77, 0 65, 5731 X

6, 6 6, 53125 4,1 3, 99375 65, 57 65, 5731

(6)

Com base na matriz

X

d calculou-se então a matriz de somas de quadrados e produtos determinada por

S

.

2, 394 0,143 26, 351 1, 611 0, 605 26, 039

0,143 4, 009 4, 015 0, 053 1, 436 0,844

26,351 4, 015 3952, 389 24, 445 2, 348 582, 980 S

1, 611 0, 053 27, 445 2, 317 0, 698 33,568

0, 605 1, 436 2, 348 0, 698 1,194 6,149

26, 039 0,844 582, 980 33, 568 6,149 1442, 669 (7)

As matrizes indicadas pelos blocos diagonais de S (3 x 3) representaram as estimativas das matrizes de somas de quadrados e produtos de cada população dados por:

Antes

2,394 0,143 26,351

S 0,143 4,009 4,015

26,351 4, 015 3952,389

Depois

2,317 0, 698 33,568

S 0,698 1,194 6,149

33,568 6,149 1442, 669

(8)

Calculando as estatística do teste baseado na razão dos determinantes (9).

Antes 1

Depois

Det S 35069, 412

22, 382

Det(S ) 1566,8342 (9)

Se for realizada uma avaliação preliminar do resultado obtido por meio da estatística l1, pode-se supor que as matrizes de covariâncias populacionais sejam heterogêneas, pois se o valor de l1 estivesse próximo de 1 ter se ia um forte indicativo que essas matrizes seriam homogêneas. Com o objetivo de realmente comprovar essa hipótese, dado um nível de significância fixado em 5%, procedeu-se com a obtenção do valor-p.

O algoritmo utilizado para impor a hipótese H0 foi aplicado à matriz

X

d. Para cada reamostragem, calculou-se novamente a matriz de somas de quadrados e produtos

b

S

, com b = 1, ..., B = 1000. Conseqüentemente, obteve-se 1000 valores para os critérios baobteve-seado na razão dos determinantes l1(b). A determinação do valor-p para a tomada de decisão em relação à rejeição ou não da hipótese H0 foi realizada computacionalmente. Para isso, inicialmente definiu-se uma variável indicadora Z (10) por:

1(b) 1 i

1 se Z

0 c.c. (10)

para b = 1, 2, ..., B.

Assim, obteve-se o valor-p dado por:

B

i i 1

Z valor p

B (11)

(4)

Ciênc. agrotec., Lavras, v. 33, Edição Especial, p. 1788 -1791, 2009

Comparação de matrizes de covariâncias... 1791

determinantes foi significativo (p<0,014). Concluiu-se que há evidências estatísticas (p<0,05) de que a covariância do efeito do exercício de força sobre o estresse oxidativo no plasma de mulheres, na terceira idade obtidos após quatro semanas de exercícios seja diferente da covariância da população inicialmente avaliada, ou seja antes do prazo de quatro semanas. Um outro importante resultado é que, caso seja feito testes como por exemplo T2 de Hotteling (JOHNSON & WICHERN, 1998) para comparar performances do vetor de médias das populações classificadas em antes e depois deve-se considerar a heterogeneidade das matrizes de covariâncias ou testes alternativos, como os testes bootstrap.

REFERÊNCIAS BIBLIOGRÁFICAS

CIRILLO, M. A. Propostas de testes multivariados para comparar matrizes de covariâncias de populações normais dependentes. 2006. 111 p. Tese (Doutorado em Estatística e Experimentação Agropecuária) –

Universidade Federal de Lavras, Lavras, 2006.

JIANG, G.; SARKAR, K. S.; HSUAN, F. A likelihood ratio test and its modifications for the homogeneity of the

covariance matrices of dependent multivariate normals. Journal of Statistical Planning and Inference, [S.l.], v. 81, p. 95-111, 1999.

JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. 4. ed. New Jersey: Prentice Hall, 1998.

LEVENE, H. Contributions to probability and statistics: essays in Honor of Harold Hotelling. [S.l.]: Stanford University, 1960.

MANLY, B. F. J. Randomization, bootstrap and Monte Carlo methods in biology. 2. ed. New Zealand: University of Otago, 1997. 356 p.

O’BRIEN, C. O. P. Robust procedures for testing equality of covariance matrices. Biometrics, Washington, v. 48, p. 819-827, 1992.

Referências

Documentos relacionados

Para analisar a toxicidade do LG para com as sementes de Lactuca sativa, o material foi submetido a testes de germinação e os resultados são mostrados no Gráfico 10... Gráfico 10

Mediante o impacto do paciente com o ambiente do centro cirúrgico, a equipe de enfermagem deve estar voltada para o aspecto humano do atendimento, centrando suas

Objetivo: Avaliar o conhecimento de fisioterapeutas intensivistas que atuam na Unidade de Terapia Intensiva (UTI) de um hospital da cidade de Santos sobre a Pneumonia Associada

Os estudos de coorte incluem grupos de doentes que são seguidos no tempo para determinação da incidência ou da história natural da doença, assim como dos factores de risco para

Figura A53 - Produção e consumo de resinas termoplásticas 2000 - 2009 Fonte: Perfil da Indústria de Transformação de Material Plástico - Edição de 2009.. A Figura A54 exibe

vassourar – varrer... Que género de texto acabaste de ler? Justifica a tua resposta. Transcreve alguns versos que ilustrem a azáfama da vassoura. A dona da casa está descontente com

A bicharada já andava toda admirada, mas muito desconfiada!.

El porcentaje de ovejas CTQ que presentaron una PENPP fue inferior al de las ovejas IF, independientemente del tratamiento aplicado (Tabla 2). En las dos razas, el