• Nenhum resultado encontrado

A dificuldade em calcular a informação mútua e a entropia para variáveis com distribuição contínua, reside no facto de as verdadeiras funções de densidade de probabilidade não serem conhecidas, con- duzindo à necessidade de pressupor uma distribuição de probabilidade teórica ou tentar inferir as probabilidades através das respectivas frequências relativas. Neste contexto, existem três aborda- gens possíveis para a estimação da informação mútua e da entropia: (i) estimadores baseados em histogramas; (ii) estimadores de Kernel; e (iii) métodos paramétricos.

De acordo com Moddemeijer (1989, 1999) os estimadores baseados em histogramas dividem-se em dois grandes grupos: a partição através de células equidistantes [Moddemeijer (1999), Tambakis8 (2000)] e a partição do espaço através de células equiprováveis (equiquantização marginal). Esta

8

Tambakis (2000) apresentou um estimador para a informação mútua baseado numa partição equidistante das células num determinado espaço. Este autor aplicou esta medida a várias sucessões cronológicas financeiras, com o intuito de avaliar a sua eficiência nos mercados financeiros, concluindo que quanto maior fosse a informação mútua menos eficiente seria o mercado em causa.

segunda abordagem apresenta vantagens face à partição em células equidistantes, pois permite uma melhor adequação da partição à amostra em estudo, permitindo também a maximização da informação mútua e da entropia [Darbellay (1998a)]. Os estimadores de Kernel utilizam vários parâmetros, sendo que a escolha da amplitude dos intervalos não é totalmente objectiva e se não for adequada pode enviesar os resultados [Moddemeijer (1989), Granger et al. (2000)]. Por fim, para ser possível a aplicação de métodos paramétricos é necessário conhecer (ou pelo menos pressupor) o processo estocástico gerador dos dados, o que pode levar a enviesamentos nos resultados.

Moddemeijer (1989, 1999) alerta para o facto de a estimação da informação mútua e da entropia a partir de histogramas comportar alguns problemas, nomeadamente: (i) enviesamento causado pelo número finito de observações; (ii) enviesamento causado pela quantização, e (iii) enviesamento causado pelo facto de o histograma ser finito. Este autor refere ainda que quanto mais leptocúrtica for a distribuição, mais células serão necessárias para descrever a distribuição em causa e minimizar o enviesamento causado pela resolução finita [Moddemeijer (1989)]. A contribuição relativa destas causas depende da aplicação em estudo e especialmente do tamanho da amostra, da configuração das células do histograma e do maior ou menor alisamento da função de densidade de probabilidade. De acordo com este autor, as duas últimas causas são independentes do número de observações e só assumem relevância quando as variáveis em causa são contínuas. De acordo com Darbellay (1998a), Darbellay e Vajda (1999), Kraskov, Stögbauer e Grassberger (2003) a partição do espaço em células equiprováveis será aquela que promove o menor enviesamento.

Paninski (2003) defende que a principal dificuldade relativa à estimação da informação mútua e da entropia tem a ver com o facto de serem medidas não-lineares definidas sobre um espaço de probabilidade conjunta que não é conhecido a priori. Além disso, o autor refere ainda que quando o rácio entre o número de observações (N ) e o número de intervalos (m), N/m tende para infinito, então o enviesamento resultante do processo de estimação diminui drasticamente. O modelo desen- volvido por Paninski (2003) tenta solucionar os problemas de enviesamento associados ao processo de estimação quando N/m é um valor limitado e relativamente pequeno. Neste contexto, Paninski (2003) propõe a estimação da informação mútua através de uma sequência de intervalos, cujos pontos são encontrados a partir de funções sobre as variáveis aleatórias em análise. O autor baseia o método na propriedade segundo a qual a informação mútua não se altera face a transformações lineares nas variáveis aleatórias contínuas. A escolha das funções prende-se apenas com o facto de ser necessário preservar ao máximo a informação existente entre as variáveis. Neste método, denominado pelo autor por method of sieves, o número de intervalos com probabilidade não nula é estimado a partir de uma função de verosimilhança máxima.

do espaço, uma vez que, de acordo com diversos autores [e.g. Darbellay (1998a), Bernhard et al. (1999), Moddemeijer (1999), Kraskov et al. (2003)], é o método de estimação que oferece a possibilidade de menores enviesamentos nas estimativas. Dada a grande similaridade entre a forma de estimação da informação mútua e da entropia, é descrita com mais detalhe neste estudo a forma de estimação da informação mútua, uma vez que apresenta uma complexidade superior e pode ser facilmente generalizável para a entropia.

A definição da informação mútua entre dois vectores de variáveis−→X e−→Y é entendida como sendo a informação ou dependência global entre os mesmos e é um valor real não-negativo, sendo a sua definição baseada sobre partições do espaço em estudo. Como forma de simplificação, é assumido um espaço Euclideano com dimensão finita d, Rd≡ RdX×RdY, onde RdX e RdY são os subespaços

de X e de Y de dimensão dX e dY respectivamente. Sejam ΓX = {Ai}i=1n1 ΓY = {Bj}nj=12 duas

partições genéricas dos espaços RdX e RdY. Então a informação mútua é dada por

I³−→X ,−→Y´ sup {Ai}{Bj} X i,j p−→X ,−→Y (Ai× Bj) log p−→ X ,−→Y (Ai× Bj) p−→ X(Ai) p−→Y (Bj) . (2.74)

O supremo é retirado de todas as partições finitas em RdX e RdY. Darbellay (1998a) demonstrou

que a informação mútua é finita se e só se a medida p−→

X ,−→Y for contínua com respeito ao produto

entre p−→X e p−→Y e neste caso o sistema Γ ≡ ΓX × ΓY é uma partição do espaço Rd= RdX×RdY e

representa o produto marginal de duas partições de RdX e RdY. Dobrushin (1959) provou que esta

restrição do produto de partições não era necessária [vide Darbellay (1998a)], pois se se assumir que S é uma sequência de números que pode existir numa partição, então

SΓ ≡ m X k=1 SCk ≡ m X k=1 p−→ X ,−→Y (Ck) log p−→X ,−→Y (Ck) p−→X(Ck) p−→Y (Ck) , (2.75)

nunca decresce à medida que a partição Γ = {Ck= Ak× Bk, k = 1, ..., m} é cada vez mais fina.

Seja Γ = {Ck} uma partição finita de Rd e Λ = {Ck,l} um refinamento de Γ, então

SΓ≤ SΛ (2.76)

verificando-se a igualdade se e só se:

p−X,→−→Y (Ck,l) p−→X(Ck,l) p−→Y (Ck,l) = p−→X,Y→(Ck) p−→X(Ck) p−→Y (Ck), ∀l. (2.77)

A desigualdade deve-se ao facto de ln z ≤ z − 1, ∀z > 0, verificando-se a igualdade para z = 1. Portanto, quanto mais finas forem as partições de Γ, maior será a sequência de números que aumentará monotonamente enquanto for possível existirem partições finitas em Γ. Tal facto, de

acordo com Darbellay (1998a, 1999) mostra que a informação mútua é uma medida finita. Para que a igualdade ocorra, os vectores−→X e−→Y têm de ser condicionalmente independentes, o que significa que existe independência local e neste caso concreto, para todo e qualquer valor Ck de Γ admite-se

que I³−→X ,−→Y´= SΓ.

Darbellay (1998a) e Bernhard e Darbellay (1999) exemplificam o procedimento para a con- strução de partições e subpartições, que deverá ser homogéneo. Os autores defendem que em determinadas circunstâncias é preferível trabalhar com intervalos equiprováveis em vez de inter- valos equidistantes, pois tal metodologia flexibiliza o estudo e está de acordo com o princípio da aditividade da entropia e consequentemente da informação mútua, assim como a não alteração da informação mútua face a transformações lineares nas variáveis

I ((f1(X1) , ..., fda(Xda)) , (fda+1(Xda+1) , ..., fd(Xd))) = I ((X1, ..., Xda) , (Xda+1, ..., Xd)) .

(2.78) Portanto, é possível obter uma partição por diferentes algoritmos, os quais são apresentados seguidamente. Seja t uma variável que assume valores entre 1 e β, onde β é o número de subpartições e seja αtd o número de sub-células. As regras estabelecidas para os dois principais algoritmos utilizados são as seguintes:

Algoritmo A

(1) Seja Rd uma partição inicial de células;

(2) Cada célula deverá ser partida em αtdsub-células, através da divisão de cada margem da célula em α intervalos equidistantes;

(3) Parar a subpartição da célula se e só se os vectores de variáveis aleatórias −→X e −→Y forem uniformemente distribuídos.

Algoritmo B

(1) Seja Rd uma partição inicial de células;

(2) Cada célula deverá ser partida em αtdsub-células, através da divisão de cada margem da célula

em α intervalos equiprováveis, através de equiquantização marginal;

De um modo simples, pode dizer-se que para proceder à partição de cada célula com dimensão d pelo Algoritmo B, é dividida cada uma das suas margens em α intervalos equiprováveis, ou seja, cada célula será dividida em αd sub-células (vide Figura 2.2).9 Numa primeira fase é considerada uma subpartição em αdsub-células, processo que deverá ser repetido (equiquantização marginal) em

α2dsub-células, em α3dsub-células e assim sucessivamente. Naturalmente que é necessário parar as subpartições até um determinado nível, designado por β. Quando é detectada independência numa determinada célula esta já não é alvo de mais nenhuma partição.

(a)

(b)

(c)

(d)

(a)

(b)(b)

(c)

(c)

(d)(d)

Figura 2.2: Ilustração do Algoritmo B, num espaço Euclideano com d = 2 e α = 2. (a) corresponde ao passo (1) do algoritmo; em (b) foi aplicado o passo (2), em que cada uma das células resultantes tem um nível de profundidade 1. Em (c) o passo (2) foi aplicado à célula superior do lado direito e inferior do lado esquerdo. Neste caso a regra (3) foi aplicada às duas outras células. Em (d) o passo (2) foi aplicado a 5 células que voltaram a ser alvo de partição, cuja profundidade passou a ser de 3 e o passo (3) foi aplicado às restantes 3 células, cujo nível de profundidade é 2. Fonte: Darbellay (1998b).

O número de intervalos equiprováveis (α) é arbitrário, contudo não tem muita lógica deixar α

variar num intervalo muito alargado, pois tal poderá criar algumas complicações de cálculo, por isso geralmente assume-se que α = 2 [Darbellay (1999)]10.

Equiquantização marginal significa dividir cada margem da célula em α intervalos com aproxi- madamente o mesmo número de pontos. A aproximação a este tipo de divisão tem duas causas: o número de pontos na célula pode não ser exactamente divisível por α ou então X pode ter valores repetidos. Os limites inferiores, L, e os limites superiores, U , assim como xk

i (L) e xki (U ) (os pon-

tos finais da i-ésima margem do hiperrectângulo Ck) são encontrados através da equiquantização

marginal.

Com vista a estimar a informação mútua numa amostra finita de N pontos de −→x = (x1, ..., xd)

em Rd, assume-se que N−X,→−→Y (Ck) representa o número de pontos tal que xki (L) < xi < xki (U ),

para i = 1, ..., d. Então os pontos marginais, N−→X(Ck), representam o número de pontos −→x tal

que xki (L) < xi < xki (U ), para i = 1, ..., dX e N−→Y (Ck) representa o número de pontos −→x tal que

xki (L) < xi< xki (U ), para i = dX+ 1, ..., d.

As probabilidades são estimadas a partir das frequências relativas, isto é

p−X,→−→Y (Ck) ≈ N−→ X ,−→Y (Ck) N (2.79) p−→X(Ck) ≈ N−→X(Ck) N (2.80) p−→Y (Ck) ≈ N−→Y (Ck) N . (2.81)

Assim, a independência local surge quando

N−→X,Y→(Ck,l) ≈ N−→X,Y→(Ck)

N−→X(Ck,l) N−→Y (Ck,l)

N−→

X(Ck) N−→Y (Ck)

, para l = 1, ..., αtd, (2.82)

ou seja, quando para uma partição mais fina, o valor N−→X,Y→(Ck,l) não sofre alterações significativas

e se aproxima do respectivo valor observado. Para cada t, a subpartição {Ck,l} de Cké claramente

mais fina e por isso diferente. As observações N−→X,Y→(Ck) contidas em Ck são classificadas em αtd

classes mutuamente exclusivas, as sub-células. O lado direito da equação (2.82) é o valor esperado na classe l e o lado esquerdo é o valor observado na mesma classe. Estes valores observados seguem uma distribuição multinomial cujas probabilidades são dadas pelos valores esperados, situação que é considerada típica em estatística. Neste contexto, Darbellay (1998a) aconselha englobar a análise numa única estatística χ2 ao invés de verificar todas as condições referentes a αtd de forma individual.

1 0

Se se utilizar o Algoritmo A, o objectivo é testar se se está perante uma distribuição uni- forme. A distribuição é testada através de um teste do χ2, cuja hipótese nula é precisamente a distribuição uniforme. No fundo estão-se a comparar os dados empíricos em A × B com a proba- bilidade pt(Ai× Bj) = 1/αtd, em que N (Ai× Bj) é uma subpartição de N (A × B), ou seja

χ2 =X

l=1

(N (Ai× Bj) − N (A × B) p (Ai× Bj))2

N (A × B) p (Ai× Bj)

. (2.83)

Neste tipo de partição (células equidistantes) A é o subconjunto do espaço de observação −→X e B é o subconjunto do espaço de observação −→Y e N (A × B) é o número de pontos que pertencem ao hiperrectângulo A × B. Se χ2 < χ2c, onde χ2c define o valor crítico desta estatística, então não se rejeita a hipótese nula, isto é, não se rejeita a hipótese de os vectores estarem uniformemente distribuídos. Os valores para χ2c podem ser encontrados nas tabelas estatísticas usuais.

Caso se utilize o Algoritmo B (células equiprováveis), é também utilizado o teste χ2, como teste de independência χ2 ≡ χ2({Ck,l}) ≡ N−→X(Ck) N−→Y (Ck) N−→X,Y→(Ck) αtd X l=1 S2({C k,l}) N−→X(Ck,l) N−→Y (Ck,l) , (2.84) onde S2({Ck,l}) ≡ " N−X,→−→Y (Ck,l) − N−→X,Y→(Ck) N−→ X(Ck,l) N−→Y (Ck,l) N−→X(Ck) N−→Y (Ck) #2 , (2.85)

ou então utiliza-se o rácio da log-verosimilhança, isto é

L ≡ L ({Ck,l}) ≡ αtd X l=1 N−→ X,−→Y (Ck,l) log " N−→X ,−→Y (Ck,l) N→−X(Ck) N−→Y (Ck) N−→X,Y→(Ck) NX→− (Ck,l) N−→Y (Ck,l) # . (2.86)

O teste estatístico é aplicado a cada uma das β subpartições em αtdsub-células com t = 1, ..., β.

Se o teste não rejeitar independência local, então obtém-se a partição final Γ = {Ck, k = 1, ..., m}

na qual é estimada a informação mútua

ˆ I³−→X ,−→Y´= 1 N m X k=1 N−→X,Y→(Ck) Ã log N−→X,Y→(Ck) N−→X(Ck) N−→Y (Ck) + log N ! . (2.87)

O valor de β tem um impacto directo na consistência do estimador. Um valor mais elevado de β previne uma paragem antecipada espúria na partição da célula [Darbellay (1998a)]. Esta paragem espúria pode ocorrer se os dados exibirem simetrias nas αd, α2d,..., αβd sub-células, de tal modo que é encontrada a independência local das mesmas, independência esta que seria rejeitada caso se procedesse a nova partição das células em causa.

Darbellay (1998a) procede a uma simulação com α = 2 para a equiquantização marginal. Com vista a encontrar a independência local utilizou um teste χ2 onde β = 2. Em R2, por exemplo, tal significa calcular χ2 das subpartições da célula em 4 = α1×2 sub-células e depois em 16 = α2×2 células.

Neste contexto, o nível de significância é a probabilidade de proceder à partição de uma célula quando não se deveria fazê-lo. Os níveis de significância são os usualmente utilizados nos testes estatísticos (5% e 1%). De acordo com Darbellay (1998a) o nível de significância mais adequado para β = 1 deve ser ligeiramente maior que o nível de significância usado para β = 2. O mesmo autor refere ainda que se o número de pontos da amostra (observações) for elevado, então o nível de significância deverá ser 1% (ou aproximado), do mesmo modo que para amostras cuja dimensão do espaço é baixa. A escolha do valor de β depende do número de pontos da amostra e da dimensão do espaço de observação. Para uma determinada célula, com um nível de profundidade acentuado, não faz muito sentido proceder a uma nova partição, especialmente se se tratar de espaços multi- dimensionais e se o número de pontos não for muito grande.11

Relativamente à estimação da entropia, o processo a utilizar será semelhante ao já descrito para a informação mútua, pois só assim faria sentido para estabelecer as devidas conexões entre estes conceitos. A estimação da entropia de uma só variável [por exemplo H (X)] basear-se-á na partição do espaço com dimensão d = 1, ou seja, sobre um histograma. Neste caso, a amplitude de cada intervalo do referido histograma obedecerá ao princípio da distribuição uniforme dos intervalos. Para o cálculo da entropia conjunta entre variáveis a abordagem é muito semelhante à preconizada para a informação mútua, em termos da partição do espaço sendo então calculada a entropia com base nas frequências relativas conjuntas estimadas.

Tanto a entropia como a informação mútua são estimadas através da equiquantização marginal, tendo para tal sido utilizado o software Matlab V.6.5.