5.4 Estudo de simula¸c˜ao
5.4.1 Descri¸c˜ao do estudo
Neste estudo, estimamos a curva de regress˜ao em misturas de duas e trˆes componentes normais bidimensionais.
Dimens˜ao das amostras (n)
Ger´amos amostras de dimens˜ao n = 100 e n = 500 provenientes de uma mistura de componentes binormais.
N´umero de amostras
Para cada dimens˜ao de amostra e para cada conjunto de valores dos parˆametros de mistura, ger´amos 200 amostras.
Gera¸c˜ao dos dados
As amostras foram geradas do seguinte modo: seja π1, π2, . . . , πj, a propor¸c˜ao de mistura da primeira, da segunda, ..., da j−´esima componente de mistura, respectivamente, e n a dimens˜ao da amostra. Inicialmente, obtivemos n realiza¸c˜oes de uma vari´avel aleat´oria auxiliar, designada por Z, com distribui¸c˜ao uniforme no intervalo (0; 1). Se 0 ≤ zi ≤ π1, ger´avamos uma observa¸c˜ao proveniente da primeira componente da mistura, se π1 < zi ≤ (π1 + π2), ger´avamos uma observa¸c˜ao proveniente da segunda componente da mistura e assim sucessivamente.
M´etodo de estima¸c˜ao proposto na sec¸c˜ao 5.3.1 deste cap´ıtulo
Para cada uma das amostras geradas e recorrendo ao m´odulo inform´atico MCLUST e `a fun¸c˜ao EMclust, estim´amos os parˆametros de mistura. Nos argumentos iniciais daquela
fun¸c˜ao inclu´ımos os dados e o n´umero m´aximo de componentes de mistura a considerar, uma vez que conhec´ıamos esse valor (esse valor seria dois ou trˆes nas amostras geradas). As estimativas dos parˆametros de mistura foram substitu´ıdas na express˜ao (5.43) do valor esperado condicional para se obter a curva de regress˜ao estimada. No final, calcul´amos a soma dos quadrados dos res´ıduos da curva de regress˜ao estimada.
Estima¸c˜ao de um modelo linear a cada componente de mistura
Quando se aplica a fun¸c˜ao EMclust aos dados, estima-se a que componente de mistura pertence cada observa¸c˜ao, tornando-se poss´ıvel identificar as observa¸c˜oes de cada compo- nente de mistura.
Para cada uma das amostras geradas, ajust´amos um modelo linear a cada uma das componentes de mistura e calcul´amos a soma dos quadrados dos res´ıduos do modelo linear ajustado a cada componente de mistura. No final, adicion´amos esses valores de todas as componentes de mistura, para se obter a soma total do quadrados dos res´ıduos.
M´etodo de estima¸c˜ao proposto em Calot (1969) e Grais (1982)
Para cada uma das amostras geradas tamb´em se estimou a curva de regress˜ao aplicando o m´etodo proposto em Calot (1969) e Grais (1982).
Este m´etodo baseia-se na divis˜ao dos dados em classes. Inicialmente, os dados s˜ao ordenados segundo os valores observados da vari´avel explicativa e divididos num n´umero
c de classes de igual amplitude. A amplitude de cada classe ´e igual ao quociente entre a
diferen¸ca entre o valor m´aximo observado e o valor m´ınimo observado da vari´avel explicativa e o n´umero de classes subtra´ıdo de uma unidade, ou seja:
amplitude = Max(x1) − Min(x1)
c − 1 (5.73)
em que Max(x1) e Min(x1) s˜ao, respectivamente, o valor m´aximo observado e o valor m´ınimo observado da vari´avel explicativa.
O valor m´ınimo observado da vari´avel explicativa corresponde ao centro da primeira classe, o valor m´aximo observado da vari´avel explicativa corresponde ao centro da ´ultima classe e os pontos m´edios de cada classe passam a representar os valores observados da vari´avel explicativa da classe.
De seguida, determinam-se os valores m´edios da vari´avel resposta condicionais a cada classe e a curva de regress˜ao ´e obtida unindo os pontos de coordenadas definidas pelo ponto m´edio de cada classe e o respectivo valor m´edio da vari´avel resposta. As classes com zero observa¸c˜oes n˜ao foram consideradas na determina¸c˜ao da curva de regress˜ao.
5.4 Estudo de simula¸c˜ao 93
Na constru¸c˜ao das classes, o n´umero m´ınimo e m´aximo de classes dependeram da di- mens˜ao das amostras. Na tabela 5.2 representa-se o n´umero de classes c que foi considerado em cada dimens˜ao de amostra n.
n c
100 4 5 6 7 8 9 10 11 12 13 14 15
500 6 7 8 9 10 12 14 16 18 20 25 30 40 50 60 70
Tabela 5.2: N´umero de classes constru´ıdas para cada dimens˜ao da amostra
Na escolha de v´arios valores para o n´umero de classes c teve-se como objectivo estudar a qualidade de ajustamento da curva de regress˜ao quando se varia o n´umero de classes. Os valores de c considerados foram determinados de modo que o n´umero m´edio de elementos de cada classe fosse superior a cinco. Teve-se o cuidado de usar o n´umero de classes calculado quando se aplica a regra de Sturges (ver, por exemplo, Pestana and Velosa (2002, p. 83)) :
c ≈ I(log2n) + 1 (5.74)
em que I(x) define o maior inteiro n˜ao superior a x. Se aplicar esta regra, para n = 100 toma-se c = 7 e para n = 500 toma-se c = 9.
Para cada uma das amostras geradas e para cada n´umero de classes c, determin´amos a respectiva soma dos quadrados dos res´ıduos da curva de regress˜ao estimada.
Comparar a qualidade de ajustamento do modelo
A partir de 100 amostras de dimens˜ao n geradas, determin´amos a percentagem de vezes que a soma dos quadrados dos res´ıduos da curva de regress˜ao estimada usando o m´etodo proposto na sec¸c˜ao 5.3.1, era superior `a soma dos quadrados dos res´ıduos da curva de regress˜ao estimada usando o m´etodo proposto em Calot (1969) e Grais (1982). Calcul´amos ainda a percentagem de vezes que a soma dos quadrados dos res´ıduos da curva de regress˜ao estimada usando o m´etodo proposto na sec¸c˜ao 5.3.1, era superior `a soma dos quadrados dos res´ıduos quando se ajustava um modelo linear a cada uma das componentes de mistura.
Resumidamente, o estudo de simula¸c˜ao consiste nos seguintes passos: 1. Gerar uma amostra de dimens˜ao n.
2. Estimar a curva de regress˜ao usando o m´etodo proposto na sec¸c˜ao 5.3.1 deste cap´ıtulo e o m´etodo proposto em Calot (1969) e Grais (1982).
3. Ajustar um modelo linear a cada uma das componentes de mistura.
mados nos dois passos anteriores.
4. Repetir os passos anteriores 100 vezes. Determinar a percentagem de vezes que a soma dos quadrados dos res´ıduos (SQR) da curva de regress˜ao estimada usando o m´etodo proposto na sec¸c˜ao 5.3.1, era superior `a soma dos quadrados dos res´ıduos (SQR) da curva de regress˜ao estimada usando o m´etodo proposto em Calot (1969) e Grais (1982). Determinar tamb´em a percentagem de vezes que a soma do quadrados dos res´ıduos (SQR) da curva de regress˜ao estimada usando o m´etodo proposto na sec¸c˜ao 5.3.1, era superior `a soma do quadrados dos res´ıduos (SQR) quando se ajustava um modelo linear a cada uma das componentes de mistura.