• Nenhum resultado encontrado

Nesta seção são apresentadas algumas formas de construir modelos de misturas de k distribuições utilizando o modelo MGC. Essas misturas podem ser obtidas por meio da definição dos conjuntos de misturas em um hipercubo unitário, [0, 1]k, sobre o qual é definida uma cópula k-variada, ou por meio da definição dos conjuntos de misturas dados pela partição de [0, 1]2 em k regiões, ou ainda, pela aplicação de misturas sucessivas da mistura de duas distribuições definida em (4.1).

O exemplo a seguir ilustra uma aplicação do modelo de misturas a três distribuições utilizando uma cópula simétrica definida no cubo unitário. Consideramos uma cópula trivariada simétrica como a cópula que tem argumentos intercambiáveis, isto é, C(u, v, w) = C(u, w, v) = C(w, v, u) = C(v, u, w). Devido à simetria dos conjuntos da mistura em relação aos planos que seccionam o cubo unitário em u = v, v = w e u = w, esse modelo é incluso na familia de modelos MGC-CR. A utilização de cópulas simétricas nessa abordagem simplifica a função de distribuição do modelo, tornando direta a sua construção, como mostrado no exemplo a seguir.

Exemplo 14 Considere U, V e W três variáveis aleatórias uniformes em [0, 1] tais que

(U, V, W ) ∼ C, (4.41)

em que C é uma função de cópula trivariada simétrica. Para F , G e H funções de distribuição contínuas dadas, definimos a variável T por

T = F−1(U )I[U ≤V,U ≤W ]+ G−1(V )I[V <U,V ≤W ]+ H−1(W )I[W <U,W <V ], (4.42)

em que os conjuntos da mistura são as três pirâmides oblíquas no cubo unitário [0, 1]3 de vértices em (1, 1, 1) e bases contidas nos planos u = 0, v = 0 e w = 0. Os elementos (u, v, w) do cubo tais que u=v e u=w estão contidos na primeira pirâmide e os elementos tais que v=w estão contidos na segunda pirâmide. Temos então que o quantil de probabilidade u de F , v de G, ou w de H, é tomado para T , conforme a ocorrência da realização (u, v, w) de (U, V, W ) ∼ C nos conjuntos da mistura.

A função de distribuição de T é dada por

P [T ≤ t] = 1 − P [F−1(U )I[U ≤V,U ≤W ]+ G−1(V )I[V <U,V ≤W ]+ H−1(W )I[W <U,W <V ]> t] = 1 − P [F−1(U ) > t, U ≤ V, U ≤ W ] + P [G−1(V ) > t, V < U, V ≤ W ] +P [H−1(W ) > t, W < U, W < V ] = 1 − P [U > F (t), U ≤ V, U ≤ W ] + P [V > G(t), V < U, V ≤ W ] +P [W > H(t), W < U, W < V ] = F (t) − δC(F (t)) + γC(F (t))/3 + G(t) − δC(G(t)) + γC(G(t))/3 H(t) − δC(H(t)) + γC(H(t))/3, (4.43)

em que γC(x) = C(x, x, x) é a diagonal da cópula trivariada. A função densidade é dada por

P [T ≤ t] = [1 − δ0C(F (t)) + γC0 (F (t))/3]f (t) + [1 − δC0 (G(t)) + γC0 (G(t))/3]g(t)

+[1 − δC0 (H(t)) + γC0 (H(t))/3]h(t), (4.44)

em que γC0 (x) = dxdC(x, x, x). Nesse caso, pela simetria dos conjuntos no cubo unitário, temos P [U = Z] = P [V = Z] = P [W = Z] = 1/3 é a probabilidade da tomada de percentis F , G e H.

Uma outra forma de definir uma mistura de k distribuições utilizando cópulas é definir os conjuntos da mistura como uma partição de k regiões de [0, 1]2. Para a mistura de k distribuições componentes

4.3 MISTURA COM MAIS DE DUAS DISTRIBUIÇÕES 43 podemos definir T = k X j=1

Fj−1(rj(U, V ))I(U,V )∈Aj (4.45)

em que Fj são as distribuições componentes, Aj são os conjuntos da mistura e rj(u, v) são as funções de seleção, para j = 1, ..., k. Os conjuntos da mistura podem ser definidos de forma que, para j = 1, ..., k, tenhamos rj(u, v) = v e Aj = [uj−1, uj), que utilizam as constantes u0 = 0, uk = 1 e as constantes

uj, j = 1, .., k − 1 que são k − 1 parâmetros da mistura nessa família. Essa família é considerada uma

família de modelos de conjuntos simples devido ao tipo de partição realizada em [0, 1]2. O exemplo a seguir considera o caso de k = 3.

Exemplo 15 Considere as funções de distribuição F1, F2 e F3, as funções de seleção r1(u, v), r2(u, v)

e r3(u, v) e também os conjuntos de mistura A1, A2 e A3 dados por uma partição de [0, 1]2. Definimos

a variável

T = F1−1(r1(U, V ))I(U,V )∈A1+ F2−1(r2(U, V ))I(U,V )∈A2 + F3−1(r3(U, V ))I(U,V )∈A3 (4.46)

do que segue a função de distribuição

P [T ≤ t] = P [r1(U, V ) ≤ F1(t), (U, V ) ∈ A1] + P [r2(U, V ) ≤ F2(t), (U, V ) ∈ A2]

+P [r3(U, V ) ≤ F3(t), (U, V ) ∈ A3]

=

Z Z

[r1(U,V )≤F1(t),(U,V )∈A1]

dC(u, v) +

Z Z

[r2(U,V )≤F2(t),(U,V )∈A2]

dC(u, v) +

Z Z

[r3(U,V )≤F3(t),(U,V )∈A3]

dC(u, v). (4.47)

O modelo apresentado é uma generalização do modelo de MGC-3CS-CC analisado em (4.30), em que r1 = r3 = r = v, r2 = s = v, A1 = [u ≤ p], A2 = [p ≤ u < q] A3 = [u ≥ q], F1 e F3 não

necessariamente são a mesma função de distribuição F . Nesse caso, temos P [A1], P [A2] e P [A3] as

probabilidades de se tomar para a mistura valores de F1, F2 e F3, respectivamente. O Exemplo 13 do

modelo MGC-3CS-CC serve de ilustração para mostrar que o tratamento dessa abordagem de mistura de k distribuições é direto, de forma equivalente à mistura feita para duas distribuições.

Uma mistura de k distribuições também pode ser construída a partir de misturas sucessivas de duas distribuições, conforme o exemplo ilustra a seguir para k = 3.

Exemplo 16 Para um modelo de misturas definido como em (4.1), considere o vetor aleatório (U1, V1) ∼

C, as funções de seleção em (0, 1) r1(u, v) e s1(u, v), as funções de distribuição F e G e os conjuntos

da mistura A1 e Ac1 dados. Defindo a variável

T = F−1(r1(U1, V1))I(U1,V1)∈A1 + G−1(s1(U1, V1))I(U1,V1)∈Ac

1, (4.48)

segue que a função de distribuição de T é dada por

˜ F (t) = P [T ≤ t] = P [r1(U1, V1) ≤ F (t), (U1, V1) ∈ A1] + P [s1(U1, V1) ≤ G(t), (U1, V1) ∈ Ac1] = Z Z [r1(U1,V1)≤F (t),(U1,V1)∈A1] dC(u, v) + Z Z [s1(U1,V1)≤G(t),(U1,V1)∈Ac 1] dC(u, v). (4.49)

44 MODELO DE MISTURAS GENERALIZADO UTILIZANDO CÓPULAS 4.4

Considere também o vetor aleatório (U2, V2) ∼ C, as funções de seleção em (0, 1) r2(u, v) e s2(u, v), as

funções de distribuição ˜F e H e os conjuntos da mistura A2 e Ac2 dados. Definimos a variável

W = ˜F−1(r2(U2, V2))I(U2,V2)∈A2 + H−1(s2(U2, V2))I(U2,V2)∈Ac

2 (4.50)

segue que a função de distribuição de W é dada por

P [W ≤ t] = P [r2(U2, V2) ≤ ˜F (t), (U2, V2) ∈ A2] + P [s2(U2, V2) ≤ H(t), (U2, V2) ∈ Ac2] = Z Z [r2(U2,V2)≤ ˜F (t),(U2,V2)∈A2] dC(u, v) + Z Z [s2(U2,V2)≤H(t),(U2,V2)∈Ac 2] dC(u, v) (4.51)

4.4

Aplicações

Nesta seção algumas famílias do modelo de mistura generalizado apresentadas são ajustadas a conjutos de dados simulados e empíricos da literatura. Os parâmetros dos modelos propostos foram es- timados pelo método de máxima verossimilhança. Considerando uma amostra xi = (δi, ti), i = 1, · · · , n,

com censuras aleatórias à direita para as quais δi é variável indicadora de falha e ti é o mínimo entre valor observado e o tempo de censura, segue de (4.2) e (4.3) que a função de verossimilhança é dada por L(Υ; x) = n Y i=1 ˜ f (ti; Υ)δiS(t˜ i; Υ)1−δi, (4.52)

em que Υ denota os parâmetros do modelo de mistura. Para o ajuste dos modelos a função de log- verossimilhança foi otimizada. Foram utilizados algoritmos escritos em R e a função optim com o método combinado de dois passos sendo o primeiro de ‘Nelder-Mead’, seguido por ‘BFGS’ executado a partir do resultado do primeiro passo. No procedimento de otimização foram também analisados os problemas de máximos locais e identificação dos modelos. Para isso, no ajuste de cada modelo proposto foram uti- lizados de 300 a 600 valores iniciais tomados de um hiper-retângulo do espaço paramétrico do modelo. Os resultados da otimização dos modelos propostos em cada amostra estudada foram analisados simul- taneamente para verificar a qualidade geral dos ajustes e a presença de máximos locais. Nas aplicações realizadas os resultados mostraram a presença de máximos locais e fortes evidências que os modelos analisados são identificáveis. Em cada modelo ajustado os pontos encontrados no espaço paramétrico em que a função de log-verossimilhança obteve valor máximo foram iguais, exceto os casos das famílias de conjuntos simples MGC-CS-O e MGC-3CS-CC com duas componentes de mesma especificação, que permitem duas parametrizações atingirem o máximo, conforme discutido nos Exemplos 4 e 6. Para ilustrar essa análise, a Figura4.8mostra o resultado do procedimento de otimização da função de log- verossimilhança para os modelos propostos da família MG-CR-EE e de misturas tradicional ajustados a dados simulados do modelo MGC-CR-EE, com componentes Weibull e cópula de Frank. Os modelos propostos utilizam várias componentes combinadas para essa mesma família de mistura com cópula de Frank ou para o modelo de misturas tradicional, como mostrado no gráfico. Para cada modelo MGC a otimização utilizou 600 valores iniciais e de misturas tradicional, 300 valores iniciais. Cada ponto do gráfico mostra o resultado da otimização da função a partir de um ponto inicial distinto e é exibido com um erro lateral aleatório a fim de que o gráfico informe a densidade de cálculos de otimização da função com mesmo resultado do valor da log-verossimilhança. Para cada modelo proposto, os valores concentrados em determinado valor da função de log-verossimilhança indicam máximos locais ou o má- ximo global. Os valores não pertencentes a essas regiões de concentração de pontos mostram situações em que houve falha de convergência do algoritmo ou que o algoritmo buscou as estimativas em regiões

Documentos relacionados