• Nenhum resultado encontrado

2.6.1

Entropia de Shannon como surpresa média

A quantidade − log pi é muitas vezes definida como a surpresa associada ao resultado i. Se pi é

pequeno, haverá uma maior surpresa se o resultado for realmente i. Em conformidade, − log pi

assume valores mais elevados, quanto menores forem as probabilidades. Se pi é grande, então a

surpresa associada será menor. Neste contexto, parece perfeitamente razoável chamar a − log pi

surpresa [Fieldman (1998)]. A próxima equação pode ser encarada como o valor esperado da “surpresa”, isto é

H (X) =X

x

[(− log pi) pi] = h− log pii . (2.69)

A entropia fornece a média do quanto se ficaria surpreso com a ocorrência do evento X. Esta afirmação fortalece a assunção de que a entropia é uma medida de incerteza associada à distribuição de probabilidades. Quanto maior a incerteza face ao resultado, maior a surpresa (em termos médios) acerca do mesmo.

Neste sentido, é também possível verificar o quanto a entropia está conectada com a informação. Quanto maior o estado de incerteza, mais importância ganha a informação acerca do evento X, por este motivo a entropia pode, em certas circunstâncias, ser encarada como o valor ordinal da informação na perspectiva do decisor [Dionísio (2001)].

2.6.2

Princípio da entropia máxima

De acordo com o princípio da entropia máxima e informação mínima é possível encontrar a dis- tribuição de probabilidade que mais se adequa aos dados, na qual é minimizado o uso inadvertido de qualquer tipo de informação que não a explicitamente disponível, podendo ser encarado como um ramo da inferência estatística [Maasoumi (1993), Reesor et al. (2002), Golan (2002), Zellner (2002)].

Rockinger e Jondeau (2002) e Golan (2002) mostraram que é possível estimar a função de densidade de probabilidade referente a um determinado conjunto de dados através da maximização da função entropia, sujeita a um conjunto de restrições respeitantes aos momentos da distribuição de probabilidade em causa.6 Seja pX(x) a função de densidade de probabilidade e bi o momento i

da distribuição tem-se que

6O princípio da entropia máxima baseia-se no facto de a entropia aumentar continuamente até ao seu valor máximo

permitido, quaisquer que sejam as restrições impostas a priori. Neste contexto a introdução de restrições não conduz ao enviesamento dos resultados, uma vez que se as restrições não forem plenamente respeitadas pelos dados empíricos não existe solução possível [Zellner (1996)].

p ∈ arg max −RpX(x) log pX(x)dx, s.a. R pX(x)dx = 1 R xip X(x)dx = bi, com i = 1, ..., m. (2.70)

De acordo com vários autores [Stuzer (1996, 2000), Buchen et al. (1996), Zellner (1996), Samperi (1998, 1999), Rockinger et al. (2002), Golan (2002)] o princípio da entropia máxima surge como um método eficiente de geração de funções de densidade de probabilidade, uma vez que toma em consideração a distribuição de probabilidade como um todo, não omitindo nenhum momento.

Esta metodologia tem aplicação em diversas áreas, nomeadamente em finanças. São de destacar os resultados de Buchen e Kelly (1996) que aplicaram o princípio da entropia máxima e o princípio da entropia cruzada mínima para estimar a função de densidade de probabilidade de várias acções, através dos preços de opções que as têm como produto subjacente.7 O princípio da entropia cruzada mínima baseia-se na minimização da divergência de Kullback-Leibler, que não é mais que uma extensão do princípio da entropia máxima, sendo neste caso a função objectivo definida por

I1(q, p) = ∞ Z 0 qX(x) log ∙ qX(x) pX(x) ¸ dx, (2.71)

onde pX(x) é a função de densidade de probabilidade a priori da variável aleatória X, ou seja é a

informação que se tem a priori de X e qX(x) é a função de densidade de probabilidade condicionada

de X dado o valor de determinados momentos dessa distribuição . A entropia cruzada pode ser entendida como uma distância entrópica entre as distribuições pX(x) e qX(x). Não é uma medida

métrica, mas satisfaz as condições: I (p, p) = 0 e I (p, q) > 0 sempre que p 6= q. Os resultados obtidos com a minimização da entropia cruzada são consistentes com os resultados obtidos com a maximização da entropia [Buchen et al. (1996), Reesor et al. (2002)].

Stuzer (1996) procede à minimização da divergência de Kullback-Leibler com o objectivo de definir a distribuição de probabilidade mais adequada na avaliação de produtos derivados. Samperi (1999) desenvolve um modelo de avaliação de opções financeiras através da minimização da entropia cruzada ou divergência de Kullback-Leibler, sujeita a restrições lineares. O autor demonstra que existe uma estreita ligação entre os resultados obtidos com a maximização da entropia e um modelo de não arbitragem. A minimização da entropia cruzada é encarada por Samperi (1999) como o dual da maximização de uma função de utilidade exponencial.

7

A utilização do princípio da entropia máxima no estudo realizado por Buchen e Kelly (1996) prende-se com o facto de o mercado de opções não ser consistente com alguns pressupostos do modelo Black-Scholes.

2.6.3

Entropia e testes de hipóteses

Maasoumi (1993) descreve a ligação que existe entre a entropia máxima, a verosimilhança máxima e o χ2 mínimo, concluindo que existe uma relação muito forte entre estes critérios, o que auxilia a selecção da “divergência” ou entropia cruzada como medida de ajustamento e bondade. O autor refere ainda que o número de econometristas que começa a aceitar a ideia de que dados não experimentais serão inevitavelmente analisados à luz de modelos pouco especificados, é cada vez maior. Neste contexto, não se deverá esperar encontrar o verdadeiro processo gerador dos dados. Poderá sim, ser importante testar com mais rigor determinadas hipóteses.

Teste à distribuição de probabilidade

A partir do momento que a entropia de uma distribuição empírica é conhecida, pode ser utilizada para testar se essa variável segue ou não uma distribuição de probabilidade teórica [vide Dionísio et al. (2003b)]. Se por exemplo se pretender testar a normalidade da distribuição empírica as hipóteses H0 e H1 tomam a forma

H0 : pX(x) = p0X(x) ∼ N

¡

µ, σ2¢ e H1: pX(x) 6= p0X(x) .

Para testar a hipótese em causa basta ter em conta a noção de divergência. Se B(.) denota a diferença entre duas distribuições, obtém-se que

B(p) = H0(p) − H (p) = − Z p0X(x) log p0X(x) dx + Z pX(x) log pX(x) dx (2.72) = I1[pX(x) , p0X(x)] , onde H0(p) = log √

2πeσ. Na prática utiliza-se ˆH0(p) = log

2πeˆσ, onde H (p) é a avaliação não paramétrica da entropia da variável aleatória X. Com vista a estimar esta entropia poderá ser usado o método de estimação de densidades de Kernel ou a equiquantização marginal proposta por Darbellay (1998b).

Teste à simetria de uma distribuição

Racine e Maasoumi (2004) e Maasoumi e Racine (2003) apresentaram um teste à simetria de uma distribuição baseado na entropia. De acordo com os referidos autores, este tipo de teste poderá ser utilizado para testar a reversibilidade do tempo numa sucessão cronológica. Se se assumir a média (ou outra medida de tendência central, nomeadamente a moda ou a mediana), o teste à simetria ou reversibilidade do tempo pode ser formulado da seguinte forma

H0 : pX(x) = pX(−x) e H1 : pX(x) 6= pX(−x) .

Este teste pode ser desenvolvido de forma similar aos anteriores, através da estatística

B(p) = − Z pX(x) [log pX(x)] dx + Z pX(−x) log pX(−x) dx = I1[pX(x) , pX(−x)] . (2.73)

Maasoumi (1993) admite a possibilidade de desenvolvimento de um teste aos resíduos da dis- tribuição, com vista a testar a linearidade da mesma, com base no teste RESET de Ramsey. Testes a outras hipóteses, nomeadamente autocorrelação e heterocedasticidade podem também ser desen- volvidos através do princípio da entropia máxima.

Para além da realização de testes, a entropia, mais concretamente a divergência de Kullback Leibler, ou entropia cruzada, pode ser utilizada para seleccionar modelos ou distribuições de pro- babilidade como critério de ajustamento ou bondade [vide e.g. Dionísio et al. (2003b)].

A título de exemplo, é de referenciar o trabalho de Akaike em 1973 baseado na divergência de Kullback Leibler que propôs um dos mais famosos critérios de informação como selecção de modelos e de variáveis, o critério AIC [in Maasoumi (1993)]. Esta medida tem em conta a divergência entre a estimativa e os dados empíricos, utilizando o princípio da parsimónia como indicador da complexidade em que o modelo a escolher será aquele que minimiza este critério.