• Nenhum resultado encontrado

5.4 Estudo de simula¸c˜ao

5.4.1 Descri¸c˜ao do estudo

Neste estudo, estimamos a curva de regress˜ao em misturas de duas e trˆes componentes normais bidimensionais.

Dimens˜ao das amostras (n)

Ger´amos amostras de dimens˜ao n = 100 e n = 500 provenientes de uma mistura de componentes binormais.

N´umero de amostras

Para cada dimens˜ao de amostra e para cada conjunto de valores dos parˆametros de mistura, ger´amos 200 amostras.

Gera¸c˜ao dos dados

As amostras foram geradas do seguinte modo: seja π1, π2, . . . , πj, a propor¸c˜ao de mistura da primeira, da segunda, ..., da j−´esima componente de mistura, respectivamente, e n a dimens˜ao da amostra. Inicialmente, obtivemos n realiza¸c˜oes de uma vari´avel aleat´oria auxiliar, designada por Z, com distribui¸c˜ao uniforme no intervalo (0; 1). Se 0 ≤ zi ≤ π1, ger´avamos uma observa¸c˜ao proveniente da primeira componente da mistura, se π1 < zi 1 + π2), ger´avamos uma observa¸c˜ao proveniente da segunda componente da mistura e assim sucessivamente.

M´etodo de estima¸c˜ao proposto na sec¸c˜ao 5.3.1 deste cap´ıtulo

Para cada uma das amostras geradas e recorrendo ao m´odulo inform´atico MCLUST e `a fun¸c˜ao EMclust, estim´amos os parˆametros de mistura. Nos argumentos iniciais daquela

fun¸c˜ao inclu´ımos os dados e o n´umero m´aximo de componentes de mistura a considerar, uma vez que conhec´ıamos esse valor (esse valor seria dois ou trˆes nas amostras geradas). As estimativas dos parˆametros de mistura foram substitu´ıdas na express˜ao (5.43) do valor esperado condicional para se obter a curva de regress˜ao estimada. No final, calcul´amos a soma dos quadrados dos res´ıduos da curva de regress˜ao estimada.

Estima¸c˜ao de um modelo linear a cada componente de mistura

Quando se aplica a fun¸c˜ao EMclust aos dados, estima-se a que componente de mistura pertence cada observa¸c˜ao, tornando-se poss´ıvel identificar as observa¸c˜oes de cada compo- nente de mistura.

Para cada uma das amostras geradas, ajust´amos um modelo linear a cada uma das componentes de mistura e calcul´amos a soma dos quadrados dos res´ıduos do modelo linear ajustado a cada componente de mistura. No final, adicion´amos esses valores de todas as componentes de mistura, para se obter a soma total do quadrados dos res´ıduos.

M´etodo de estima¸c˜ao proposto em Calot (1969) e Grais (1982)

Para cada uma das amostras geradas tamb´em se estimou a curva de regress˜ao aplicando o m´etodo proposto em Calot (1969) e Grais (1982).

Este m´etodo baseia-se na divis˜ao dos dados em classes. Inicialmente, os dados s˜ao ordenados segundo os valores observados da vari´avel explicativa e divididos num n´umero

c de classes de igual amplitude. A amplitude de cada classe ´e igual ao quociente entre a

diferen¸ca entre o valor m´aximo observado e o valor m´ınimo observado da vari´avel explicativa e o n´umero de classes subtra´ıdo de uma unidade, ou seja:

amplitude = Max(x1) − Min(x1)

c − 1 (5.73)

em que Max(x1) e Min(x1) s˜ao, respectivamente, o valor m´aximo observado e o valor m´ınimo observado da vari´avel explicativa.

O valor m´ınimo observado da vari´avel explicativa corresponde ao centro da primeira classe, o valor m´aximo observado da vari´avel explicativa corresponde ao centro da ´ultima classe e os pontos m´edios de cada classe passam a representar os valores observados da vari´avel explicativa da classe.

De seguida, determinam-se os valores m´edios da vari´avel resposta condicionais a cada classe e a curva de regress˜ao ´e obtida unindo os pontos de coordenadas definidas pelo ponto m´edio de cada classe e o respectivo valor m´edio da vari´avel resposta. As classes com zero observa¸c˜oes n˜ao foram consideradas na determina¸c˜ao da curva de regress˜ao.

5.4 Estudo de simula¸c˜ao 93

Na constru¸c˜ao das classes, o n´umero m´ınimo e m´aximo de classes dependeram da di- mens˜ao das amostras. Na tabela 5.2 representa-se o n´umero de classes c que foi considerado em cada dimens˜ao de amostra n.

n c

100 4 5 6 7 8 9 10 11 12 13 14 15

500 6 7 8 9 10 12 14 16 18 20 25 30 40 50 60 70

Tabela 5.2: N´umero de classes constru´ıdas para cada dimens˜ao da amostra

Na escolha de v´arios valores para o n´umero de classes c teve-se como objectivo estudar a qualidade de ajustamento da curva de regress˜ao quando se varia o n´umero de classes. Os valores de c considerados foram determinados de modo que o n´umero m´edio de elementos de cada classe fosse superior a cinco. Teve-se o cuidado de usar o n´umero de classes calculado quando se aplica a regra de Sturges (ver, por exemplo, Pestana and Velosa (2002, p. 83)) :

c ≈ I(log2n) + 1 (5.74)

em que I(x) define o maior inteiro n˜ao superior a x. Se aplicar esta regra, para n = 100 toma-se c = 7 e para n = 500 toma-se c = 9.

Para cada uma das amostras geradas e para cada n´umero de classes c, determin´amos a respectiva soma dos quadrados dos res´ıduos da curva de regress˜ao estimada.

Comparar a qualidade de ajustamento do modelo

A partir de 100 amostras de dimens˜ao n geradas, determin´amos a percentagem de vezes que a soma dos quadrados dos res´ıduos da curva de regress˜ao estimada usando o m´etodo proposto na sec¸c˜ao 5.3.1, era superior `a soma dos quadrados dos res´ıduos da curva de regress˜ao estimada usando o m´etodo proposto em Calot (1969) e Grais (1982). Calcul´amos ainda a percentagem de vezes que a soma dos quadrados dos res´ıduos da curva de regress˜ao estimada usando o m´etodo proposto na sec¸c˜ao 5.3.1, era superior `a soma dos quadrados dos res´ıduos quando se ajustava um modelo linear a cada uma das componentes de mistura.

Resumidamente, o estudo de simula¸c˜ao consiste nos seguintes passos: 1. Gerar uma amostra de dimens˜ao n.

2. Estimar a curva de regress˜ao usando o m´etodo proposto na sec¸c˜ao 5.3.1 deste cap´ıtulo e o m´etodo proposto em Calot (1969) e Grais (1982).

3. Ajustar um modelo linear a cada uma das componentes de mistura.

mados nos dois passos anteriores.

4. Repetir os passos anteriores 100 vezes. Determinar a percentagem de vezes que a soma dos quadrados dos res´ıduos (SQR) da curva de regress˜ao estimada usando o m´etodo proposto na sec¸c˜ao 5.3.1, era superior `a soma dos quadrados dos res´ıduos (SQR) da curva de regress˜ao estimada usando o m´etodo proposto em Calot (1969) e Grais (1982). Determinar tamb´em a percentagem de vezes que a soma do quadrados dos res´ıduos (SQR) da curva de regress˜ao estimada usando o m´etodo proposto na sec¸c˜ao 5.3.1, era superior `a soma do quadrados dos res´ıduos (SQR) quando se ajustava um modelo linear a cada uma das componentes de mistura.