• Nenhum resultado encontrado

4 Métodos para a Estimação da Janela Ótima

6.15 Comentários

O Apêndice A apresenta, para uma amostra gerada aleatoriamente, as estimativas da função densidade para os diferentes modelos simulados e para os diferentes tamanhos de amostra estudados. Estas estimativas têm como objetivo apenas a ilustração das metodo- logias utilizadas em simulação, não sendo possível obter conclusões sobre o desempenho de cada método, pois trata-se de uma única amostra.

7

Aplicações

A estimação da função densidade de probabilidade pode ser empregada em diversos tipos de problemas, tais como classificação, regressão, confiabilidade, entre outros. No entanto, ela também é comumente utilizada em análises preliminares, com o intuito de explorar características relevantes de uma variável de interesse.

A fim de ilustrar esse tipo de análise exploratória, neste Capítulo serão apresenta- dos exemplos de aplicações reais, com o intento de avaliar o comportamento do método do núcleo, assim como as metodologias de estimação da janela ótima estudadas nesta dissertação.

Como foi explicitado no Capítulo 5, o método de Sain e Scott (1996) também será utilizado nas aplicações, embora não tenha sido utilizado nas simulações devido ao alto tempo computacional que demanda para estimação das janelas ótimas. A implementação computacional deste método foi feita no software Matlab 7.0.

O Matlab é uma linguagem de alta performance utilizada para cálculos matemáticos e para a representação gráfica dos resultados. Este software integra computação numérica, visualização e programação em um ambiente de fácil interatividade. Além disso, permite a utilização de toolboxes que têm como objetivo disponibilizar soluções para problemas bem conhecidos. O nome do software é uma contração de MATrix LABoratory. O Matlab está disponível para Windows, Linux e Mac OSX. Para mais detalhes sobre o Matlab, acesse http://www.mathworks.com/.

Devido à necessidade de um método de otimização vetorial na implementação do algoritmo, um grande tempo foi dedicado ao desenvolvimento do programa e à sua oti- mização. No decorrer da implementação foram utilizados três algoritmos de otimização, dois estocásticos e um determinístico, sendo eles respectivamente:

• Algoritmo Genético (MAN et al., 1996);

• Algoritmo Elipsoidal (BLAND et al., 1981).

Em geral, os resultados obtidos pelos três métodos foram equivalentes. No entanto o tempo computacional dos algoritmos estocásticos foi superior ao algoritmo elipsoidal. Por este motivo, nas aplicações foi utilizado o algoritmo elipsoidal.

A delimitação dos blocos foi feita de tal forma que o mínimo e o máximo da amostra sempre fossem o limite inferior do primeiro bloco e o limite superior do último bloco, respectivamente.

No primeiro exemplo, será analisado o comportamento do tempo (em minutos) en- tre erupções de um antigo gêiser. A segunda aplicação tem como intenção analisar o comportamento das despesas anuais com alimento de armazéns.

7.1

Aplicação 1

O objetivo desta aplicação é fazer uma análise exploratória do comportamento de tempo entre erupções sucessivas de um gêiser. Para tal avaliação, foram computados os tempos de 229 erupções sucessivas. Este banco de dados pode ser encontrado em Kitchens (2003).

Inicialmente, serão apresentadas as medidas descritivas através da Tabela 7.1 para sumariar o conjunto de dados. Além disso, será apresentado um histograma através da Figura 7.1 para avaliação do comportamento dos dados.

Tabela 7.1: Estatísticas Descritivas para o tempo (em minutos) entre erupções sucessivas. Estatísticas

Média 72,3143

Desvio padrão 13,8903

Coeficiente de Assimetria -0,3375

Coeficiente de Curtose -1,0217

A Tabela 7.1 mostra que o tempo médio entre erupções é de aproximadamente 72 mi- nutos, com um desvio de 13,89 minutos. Pela Figura 7.1, podemos notar a bi-modalidade dos dados, sendo uma moda próxima de 50 minutos e outra em torno de 80 minutos.

Neste caso, espera-se que as metodologias de janela variável consigam captar melhor os detalhes da distribuição, pois se pressupõe que exista diferença na suavização a ser feita

40 50 60 70 80 90 100 110 0.00 0.01 0.02 0.03 tempo Densidade

Figura 7.1: Histograma para o tempo (em minutos) sucessivo entre erupções. perto das modas com a suavização na região de caudas. Dessa forma, aplicando o núcleo- estimador, empregando as diferentes metodologias implementadas nesta dissertação para estimar a densidade do tempo sucessivo entre erupções temos que:

• A estimativa da janela ótima pelo método de Chiu (1991) é ˆhopt = 2, 7118, enquanto

que pelo método de Sheather e Jones (1991) é ˆhopt = 2, 3893.

• O método de Brewer (2000) foi utilizado conjuntamente com ambos os estimadores plug-in.

• No caso do estimador de Gangopadhyay e Cheung (2002) foram utilizadas duas distribuições a priori. Uma distribuição a priori não informativa GI(0, 01; 100) e uma priori centrada próxima à janela ótima estimada pelo método de Sheather e Jones (1991) com um coeficiente de variação de aproximadamente 25%, que é dada por uma GI(26; 0, 02).

• Para o método de Sain e Scott (1996), o número ótimo de blocos foi 12, mais informações sobre o comportamento do estimador são mostradas na Tabela 7.2.

Tabela 7.2: Informações sobre as estimativas da janela ótima

Bloco Limites dos blocos Janela ótima

1 [43, 0000; 48, 4167) 10,4602 2 [48, 4167; 53, 8333) 2,6222 3 [53, 8333; 59, 2500) 4,8765 4 [59, 2500; 64, 6667) 3,7887 5 [64, 6667; 70, 0833) 13,8307 6 [70, 0833; 75, 5000) 2,6808 7 [75, 5000; 80, 9167) 2,2251 8 [80, 9167; 86, 3333) 3,3470 9 [86, 3333; 91, 7500) 3,6320 10 [91, 7500; 97, 1667) 12,7543 11 [97, 1667; 102, 5833) 10,7841 12 [102, 5833; 108, 000) 10,2382

As Figuras 7.3 e 7.2 mostram que todas as metodologias apresentaram estimativas muito próximas. A equivalência dos estimadores pode ser explicada, possivelmente, pelo tamanho da amostra de 229 observações. A utilização do método de Sheather e Jo- nes (1991) como informação a priori para o estimador Gangopadhyay e Cheung (2002) apresentou resultados equivalentes aos demais, mostrando que a combinação pode pro- porcionar bons resultados.

Neste caso era esperado que estimador de Chiu (1991) apresenta-se um resultado insatisfatório, devido à bi-modalidade dos dados. Entretanto, o estimador obteve um resultado acima do esperado, apresentando um comportamento equivalente as demais metodologias. Em relação à abordagem de Brewer (2000), o estimador apresentou o mesmo comportamento dos estimadores plug-in utilizados na estimação da janela piloto.

tempo (min) Densidade 40 50 60 70 80 90 100 110 0.00 0.01 0.02 0.03 0.04 Chiu SJ BR−Chiu BR−SJ

Figura 7.2: Núcleo-estimador para o tempo (em minutos) sucessivo entre erupções.

tempo (min) Densidade 40 50 60 70 80 90 100 110 0.00 0.01 0.02 0.03 0.04 GI(26;0,02) GI(0,01;100) SS

7.2

Aplicação 2

O objetivo desta aplicação é observar o comportamento das despesas anuais com ali- mento de 40 armazéns do estado de Ohio, EUA. Este banco de dados pode ser encontrado em Kitchens (2003).

Inicialmente, serão apresentadas as medidas descritivas através da Tabela 7.3 para sumariar o conjunto de dados. Além disso, será apresentado um histograma através da Figura 7.4 para avaliação do comportamento dos dados.

Tabela 7.3: Estatísticas Descritivas para as despesas anuais com alimento (em1000). Estatísticas Média 3,6096 Desvio padrão 1,5093 Coeficiente de Assimetria 1,2998 Coeficiente de Curtose 1,3307 2 4 6 8 0.0 0.1 0.2 0.3 0.4 despesas Densidade

Figura 7.4: Histograma para as despesas.

A Figura 7.4 mostra a acentuada assimetria da distribuição dos dados. Neste caso, esperasse que as metodologias de janela variável consigam acompanhar melhor o cresci- mento abrupto da distribuição.

implementadas nesta dissertação, para estimar a densidade das despesas anuais de 40 armazéns temos que:

• A estimativa da janela ótima pelo método de Chiu (1991) é ˆhopt = 0, 3556, enquanto

que pelo método de Sheather e Jones (1991) é ˆhopt = 0, 3791.

• O método de Brewer (2000) foi utilizado conjuntamente com ambos os estimadores plug-in.

• Assim como na aplicação anterior, para o estimador de Gangopadhyay e Cheung (2002) foram utilizadas duas distribuições a priori. Uma distribuição a priori não informativa GI(0, 01; 100) e uma priori centrada próxima a janela ótima estimada pelo método de Sheather e Jones (1991) com um coeficiente de variação de aproxi- madamente 25%, ou seja, uma priori GI(26; 0, 13).

• Para o método de Sain e Scott (1996), o número ótimo de blocos foi 7, mais infor- mações sobre o comportamento do estimador são mostradas na Tabela 7.4. Para a

otimização vetorial foi utilizado o algoritmo elipsoidal (BLAND et al., 1981).

Tabela 7.4: Informações sobre as estimativas da janela ótima

Bloco Limites dos blocos Janela ótima

1 [1, 1800; 2, 1753) 3,4544 2 [2, 1753; 3, 1706) 0,3018 3 [3, 1706; 4, 1659) 0,3812 4 [4, 1659; 5, 1611) 1,7020 5 [5, 1611; 6.1564) 2,0426 6 [6, 1564; 7, 1517) 2,2361 7 [7, 1517; 8, 1470) 4,3381

A Figura 7.5 mostra que os estimadores de Chiu (1991) e Sheather e Jones (1991) apresentaram comportamento similar, com uma pequena diferença na região da moda. Novamente, o método de Brewer (2000) acompanhou o desempenho dos estimadores plug- in utilizados na estimação da janela piloto.

A Figura 7.6 mostra, também, que o estimador Gangopadhyay e Cheung (2002) apre- sentou um crescimento mais acentuado na região da moda, quando comparado com as demais metodologias, enquanto, que o estimador Sain e Scott (1996) apresentou um cres- cimento menos acentuado nesta região. Este fato pode ter sido ocasionado pelo tamanho

da amostra, já que Sain e Scott (1996) argumentam que o método é instável para pequenas amostras. tempo (min) Densidade 2 4 6 8 0.0 0.1 0.2 0.3 0.4 0.5 Chiu SJ BR−Chiu BR−SJ

Figura 7.5: Núcleo-estimador para as despesas anuais de armazéns (em 1000 doláres).

tempo (min) Densidade 2 4 6 8 0.0 0.1 0.2 0.3 0.4 0.5 GI(26;0,13) GI(0,01;100) SS

8

Conclusões

O estudo apresentado nesta dissertação demonstra que não há uma metodologia pro- eminente na estimação de densidades, devido às particularidades de cada método. Em alguns casos simulados, houve equivalência de desempenho, em termos de erros, dos dife- rentes estimadores. Enquanto que em outros casos, algum estimador apresentou desem- penho superior.

Com base nas simulações apresentadas, temos as seguintes conclusões:

O estimador de Chiu (1991), como era de se esperar, se mostrou deficitário para algu- mas densidades multi-modais, devido à forma de determinação do limite de integração Λ da expressão (4.4). Nos demais casos simulados, o método mostrou um bom desempenho. O método de Sheather e Jones (1991) apresentou ineficiência no caso de densidades assimétricas que foram simuladas com tamanho de amostras 30 e 50. Nos demais casos simulados, o método demonstrou um bom desempenho, obtendo resultados acima do esperado em densidades multi-modais.

A metodologia de Sain e Scott (1996) não foi incluída nas simulações devido ao alto custo computacional, ou seja, a demanda de tempo para o seu processamento é muito alta. Este fato está associado à otimização vetorial necessária na estimação das janelas ótimas. Logo, poucas conclusões podem ser feitas sobre o método.

O estimador de Brewer (2000), em geral, teve desempenho similar aos estimadores plug-in utilizados na estimação da janela piloto. No caso de distribuições multi-modais, o método tende a apresentar resultados equivalentes ou superiores ao métodos de janela fixa. Assim como a metodologia de Sain e Scott (1996), a abordagem de Brewer (2000) com dependência entre vizinhos não foi incluída nas simulações devido ao gasto computacional e à necessidade de análises pontuais para cada amostra.

A metodologia de Gangopadhyay e Cheung (2002) demonstrou, em geral, um bom desempenho para prioris informativas. Contudo, se mostrou deficitária quando a dis-

tribuição a priori é não informativa. Esse problema pode ser contornado utilizando os estimadores plug-in para especificação da distribuição a priori, como mostrado nos exem- plos de aplicação.

Tendo em vista as conclusões anteriores, um possível critério para escolha da metodo- logia de núcleo-estimador a ser utilizada é o histograma, ou seja, o usuário poderia obter informações prévias à respeito do comportamento da função densidade de probabilidade e assim optar pela escolha do método mais apropriada.

Documentos relacionados