Geometria do modelo estatístico das distribuições normais multivariadas

(1)

UNIVERSIDADE ESTADUAL DE CAMPINAS

Instituto de Matem´

atica, Estat´ıstica e

Computa¸c˜

ao Cient´ıfica

JULIANNA PINELE SANTOS PORTO

Geometria do Modelo Estat´ıstico das

Distribui¸

c˜

oes Normais Multivariadas

Campinas

2017

(2)

Geometria do Modelo Estat´ıstico das Distribui¸

c˜

oes

Normais Multivariadas

Tese apresentada ao Instituto de

Matemática, Estat´ıstica e Computa¸cão Cient´ıfica da Universidade Estadual de Campinas como parte dos requisitos exigidos para a obten¸cão do t´ıtulo de Doutora em Matemática Aplicada.

Orientador: Jo˜ao Eloir Strapasson

Coorientadora: Sueli Irene Rodrigues Costa

Este exemplar corresponde à versão da Tese defendida pela aluna Julianna Pinele Santos Porto e orientada pelo Prof. Dr. João Eloir Strapasson.

Campinas

2017

(3)

Agência(s) de fomento e nº(s) de processo(s): CNPq, 140364/2015-3; CAPES

Ficha catalográfica Universidade Estadual de Campinas

Biblioteca do Instituto de Matemática, Estatística e Computação Científica Ana Regina Machado - CRB 8/5467

Porto, Julianna Pinele Santos,

P838g PorGeometria do modelo estatístico das distribuições normais multivariadas / Julianna Pinele Santos Porto. – Campinas, SP : [s.n.], 2017.

PorOrientador: João Eloir Strapasson. PorCoorientador: Sueli Irene Rodrigues Costa.

PorTese (doutorado) – Universidade Estadual de Campinas, Instituto de Matemática, Estatística e Computação Científica.

Por1. Geometria da informação. 2. Matriz de informação de Fisher. 3. Distância de Rao. 4. Distribuição guaussiana. 5. Algoritmo k-means. I. Strapasson, João Eloir,1979-. II. Costa, Sueli Irene Rodrigues,1949-. III. Universidade Estadual de Campinas. Instituto de Matemática, Estatística e Computação Científica. IV. Título.

Informações para Biblioteca Digital

Título em outro idioma: Geometry of the statistical model of the multivariate normal

distributions

Palavras-chave em inglês:

Information geometry Fisher information matrix Rao distance

Gaussian distribution k-means algorithm

Área de concentração: Matemática Aplicada Titulação: Doutora em Matemática Aplicada Banca examinadora:

João Eloir Strapasson [Orientador] Pedro Jose Catuogno

Leonardo Tomazeli Duarte Rui Facundo Vigelis Marcelo Muniz Silva Alves

Data de defesa: 03-08-2017

Programa de Pós-Graduação: Matemática Aplicada

(4)

pela banca examinadora composta pelos Profs. Drs.

Prof(a). Dr(a). JOÃO ELOIR STRAPASSON

Prof(a). Dr(a). PEDRO JOSE CATUOGNO

Prof(a). Dr(a). LEONARDO TOMAZELI DUARTE

Prof(a). Dr(a). RUI FACUNDO VIGELIS

Prof(a). Dr(a). MARCELO MUNIZ SILVA ALVES

(5)

`

(6)

Agrade¸co à minha mãe por todo apoio que sempre me deu nessa longa caminhada até aqui, por ser a minha inspira¸cão sendo a mulher lutadora que é, fornecendo a melhor educa¸cão poss´ıvel aos seus filhos e os apoiando em suas decisões. Agrade¸co ao meu irmão Sandro, por ter me apresentado à matemática e por sempre estar ao meu lado.

Agrade¸co à toda à minha fam´ılia, por estarem sempre presentes, me dando for¸ca para continuar, por torcerem por mim e por me receberem de bra¸cos abertos, compartil-hando comigo todas as glórias e dificuldades.

Agrade¸co ao meu orientador João Strapasson o qual sem ele não poderia ter feito esse trabalho. Agrade¸co pelo apoio, for¸ca, paciência e dedica¸cão durante esses seis anos de trabalho (mestrado e doutorado).

`

A minha coorientadora Sueli Costa, por todos os trabalhos que realizamos juntas, e pela for¸ca e incentivo que me deu nos momentos dif´ıceis.

Agrade¸co ao Professor Aurélio de Oliveira por toda a aten¸cão, paciência e por ser uma pessoa com quem eu sempre pude contar durante esses meus seis anos na Unicamp. Agrade¸co ao João, por ser meu companheiro de todas as horas nesses quatro anos de doutorado, por ter compartilhando comigo os momentos de êxito e de dificuldades, por toda a paciência, persistência, cuidado e por todo carinho.

Agrade¸co aos amigos que conquistei aqui em Campinas, muitos deles hoje são minha fam´ılia também. Com tanto tempo fora de casa, acabamos construindo outras fam´ılias, compostas por pessoas que conquistam nosso cora¸cão e que a gente sabe que pode contar sempre. Agrade¸co pelo apoio nos momento de cansa¸co, pelas comemora¸cões nos momentos de alegria e aos nossos “reggaes” no Esta¸cão Barão que nos permitiram aproveitar um pouco todos esses momentos.

Ao pessoal do Laborat´orio MDC, pela companhia e pelos diversos momentos que compartilhamos, ´e importante fazer parte de um grupo.

(7)

N´ıvel Superior) e do CNPQ (Conselho Nacional de Desenvolvimento Cient´ıfico e Tec-nol´ogico), sem o mesmo este trabalho n˜ao seria poss´ıvel.

(8)

(9)

Resumo

Na área de Geometria da Informa¸cão, ferramentas de geometria diferencial são utilizadas no estudo de modelos estat´ısticos. Num trabalho pioneiro em 1945, C. Rao in-troduziu uma métrica Riemanniana, dada pela matriz de informa¸cão de Fisher, no espa¸co composto por distribui¸cões de probabilidade parametrizadas. Através dessa métrica, a distância entre as distribui¸cões (chamada de distância de Fisher-Rao), geodésicas, curva-turas e outras propriedades do espa¸co são analisadas.

Abordamos neste trabalho a distância de Fisher-Rao na variedade composta por distribui¸cões normais multivariadas. Descrevemos a distância de Fisher-Rao e as cur-vas geodésicas em algumas subvariedades e apresentamos alguns limitantes para esta distância no caso geral. Além disso, utilizamos a distância de Fisher-Rao como medida de dissimilaridade em dois algoritmos de agrupamento de dados (algoritmos k-médias e agrupamento hierárquico). Por fim, apresentamos algumas aplica¸cões desses algoritmos de agrupamentos na área de segmenta¸cão de imagens.

Palavras-chave: Geometria da Informa¸cão, métrica de Fisher, distância de Fisher-Rao,

dis-tribui¸cão normal multivariada, algoritmo k-médias, algoritmo de agrupamento hierárquico,

(10)

In the Information Geometry area, geometry differential tools are used to study statistical models. In a pioneer work in 1945, C. Rao introduced a Riemannian metric given by the Fisher information matrix, on the space composed by parametrized proba-bility distributions. Through this metric, a distance between the distributions (called the Fisher-Rao distance), geodesics, curvatures and other space properties are analyzed.

In this work, we approach the Fisher-Rao distance in the multivariate normal distributions manifold. We describe the Fisher-Rao distance and the geodesic curves in some submanifolds and we present some bounds for the Fisher-Rao distance in general case. Furthermore, we use the Fisher-Rao distance as a dissimilarity measure in two clustering algorithms (the k-means and the hierarchical clustering algorithms). Some applications of these clustering algorithms in the image segmentation are presented.

Palavras-chave: Information Geometry, Fisher metric, Fisher-Rao distance, multivariate

nor-mal distribution, k-means algorithm, hierarchical clustering algorithm, Kullback-Leibler diver-gence.

(11)

Sum´ario

Introdu¸c˜ao 13

1 Preliminares em Geometria da Informa¸c˜ao 16

1.1 Modelo estat´ıstico . . . 16

1.2 M´etrica de Fisher . . . 22

1.3 Distˆancia de Fisher-Rao . . . 27

1.4 Curvaturas . . . 31

1.5 Divergˆencia de Kullback-Leibler . . . 33

1.5.1 Rela¸c˜ao com a Distˆancia de Fisher-Rao . . . 34

1.5.2 Rela¸c˜ao com a Divergˆencia de Bregman . . . 35

2 Distribui¸c˜ao Normal Multivariada 36 2.1 Distˆancia de Fisher-Rao . . . 36

2.1.1 A subvariedade _MΣ0 onde Σ0 ´e constante . . . 43

2.1.2 A subvariedade Mµµµ0 onde µµµ0 ´e constante . . . 44

2.1.3 A subvariedade _MD onde Σ ´e diagonal . . . 46

2.1.4 A subvariedade _MDµµµ em que Σ é diagonal e µµµ é um autovetor de Σ 47 2.1.5 Produto de Subvariedades totalmente geodésica . . . 51

2.2 Algoritmos Num´ericos . . . 52

2.2.1 Algoritmo Geodesic shooting . . . 53

2.2.2 Sistema de Equa¸c˜oes . . . 54

2.3 Limitantes para a distˆancia de Fisher-Rao . . . 69

2.3.1 Limitante Inferior . . . 69

2.3.2 Limitantes Superiores . . . 69

2.3.3 Compara¸c˜ao dos Limitantes . . . 75

(12)

3.1.1 Algoritmo Maximiza¸c˜ao de Expectativa . . . 84

3.1.2 Algoritmo k-m´edias . . . 85

3.1.3 Agrupamento Hier´arquico . . . 86

3.2 Centroides no Modelos das Distribui¸c˜oes Normais Multivariadas . . . 87

3.2.1 Centroides de Bregman . . . 87

3.2.2 Centroide de Galperin . . . 88

3.3 Algoritmos de Simplifica¸c˜ao de Misturas Gaussianas . . . 91

3.3.1 Algoritmo k-m´edias Fisher-Rao Diagonal . . . 91

3.3.2 Agrupamentos Hier´arquico . . . 92

3.4 Aplica¸c˜ao em Segmenta¸c˜ao de Imagens . . . 93

4 Conclus˜oes e perspectivas 102

Bibliografia 103

A Prova do Teorema 2.1 109

(13)

13

Introdu¸c˜ao

Métricas e distâncias entre distribui¸cões de probabilidade tem um importante papel em diversas áreas e aplica¸cões. Consideremos as distribui¸cões normais univariadas com média µ e desvio padrão σ,

p(x; µ, σ) = √1 2πσ exp − 1 2 x_{− µ} σ 2! .

A Figura 1 ilustra uma compara¸cão entre as distribui¸cões normais: à esquerda estão repre-sentadas distribui¸cões normais com parâmetros A, B, C e D e à direita os parâmetros estão representados no plano média×desvio padrão. Fixando o valor da média e aumentando o valor do desvio padrão é intuitivo notar que, num mesmo intervalo, a dissimilaridade entre as distribui¸cões com parâmetros C e D é menor que a dissimilaridade entre as dis-tribui¸cões parametrizadas por A e B. Logo, observando as posi¸cões dos parâmetros A, B, C e D no plano média_{×desvio padrão, conclu´ımos que a distância Euclidiana não é uma} boa medida para calcular a distância entre esses parâmetros [18].

Figura 1: Distribui¸c˜oes normais univariadas e seus parˆametros no plano µ_{× σ (figura} retirada de [18]).

(14)

Em busca de uma medida adequada para determinar a distância entre duas popu-la¸cões, C. R. Rao [49] em 1945 introduziu métodos de geometria diferencial para modelar um espa¸co composto por distribui¸cões de probabilidade (modelos estat´ısticos) utilizando a matriz de informa¸cão dada por R. Fisher [26] em 1921. Esse importante trabalho foi o precursor da área conhecida hoje como Geometria da Informa¸cão. Embora autores como Mahalanobis [40] e Bhattacharyya [7] já tivessem feito rela¸cões entre geometria e estat´ıstica, foi Rao quem estudou conceitos de geometria diferencial e fez conexões com a matriz de informa¸cão de Fisher, ver referência [46]. Ele introduziu os conceitos de métrica de Fisher (uma métrica Riemanniana) e de distância geodésica entre duas distribui¸cões de probabilidade, chamada nesse trabalho de distância de Fisher-Rao.

Em [49], Rao calculou a distância de Fisher-Rao entre duas distribui¸cões normais univariadas. Esse trabalho motivou diversos autores a utilizarem ferramentas geométricas no estudo de modelos estat´ıstico, assim como estimulou o estudo de outras medidas de dissimilaridade entre distribui¸cões de probabilidade e o interesse em determinar fórmulas fechadas para a expressão da distâncias entre as mesmas. Efron [24] em 1975, introduziu a no¸cão de curvatura nos modelos compostos por distribui¸cões com apenas um parâmetro. Este trabalho foi seguido por contribui¸cões significantes de Dawid [22] e Reeds [50]. Amari [2, 3] foi quem unificou a teoria introduzindo outros conceitos de conexões em modelos de distribui¸cões de probabilidade. Num trabalho independentemente, Chentsov [17] calculou a distância de Fisher-Rao entre algumas distribui¸cões de probabilidade e mostrou que a métrica de Fisher é a única métrica Riemanniana invariante no espa¸co composto por distribui¸cões de probabilidade.

No cálculo da distância de Fisher-Rao entre distribui¸cões em geral destacam-se os trabalhos de Atkinson e Mitchell [5], no qual os autores calcularam a distância de Fisher-Rao entre distribui¸cões com apenas um parâmetro, e de Burbea [10], onde o autor fez um estudo do modelo das distribui¸cões multinomiais. Além disso, eles também apresentaram alguns resultados sobre a distância de Fisher-Rao no espa¸co composto por distribui¸cões normais multivariadas em casos particulares. Sato et. al. [51] em 1979 descreveram algu-mas propriedades geométricas do espa¸co composto por distribui¸cões normais bivariadas, um trabalho que foi generalizado por Skovgaard [54] em 1984. Ademais, Eriksen [25] e Calvo e Oller [13] calcularam expressões para a curva geodésica no espa¸co das distribui¸cões normais multivariadas. Hoje em dia, ainda não é conhecida uma fórmula fechada para a distância de Fisher-Rao no modelo das distribui¸cões normais multivariadas no caso geral. Distribui¸cões de probabilidade são elementos fundamentais em áreas como es-tat´ıstica, processamento estocásticos, aprendizado de máquina e teoria da informa¸cão. Rao [49] e Skovgaard [54] utilizaram a distância de Fisher-Rao em problemas de inferência estat´ıstica. A distância de Fisher-Rao também foi utilizada no estudo de tensores de di-fusão de imagens de ressonância magnética em [31,37,43]. Aplica¸cões da métrica de Fisher no espa¸co das distribui¸cões normais univariadas nas áreas de morfologia e deforma¸cão de

(15)

Introdu¸cão 15 imagens são apresentadas, respectivamente, em [41] e [4]. Além disso, em [52] a distância de Fisher-Rao foi utilizada para simplificar misturas Gaussianas através do algoritmo de agrupamento k-médias. Uma aplica¸cão da distância de Fisher-Rao entre distribui¸cões normais multivariadas na área de sistemas de radares é apresentada em [47].

Neste trabalho, fazemos um estudo da distância de Fisher-Rao no modelo es-tat´ıstico composto por distribui¸cões normais multivariadas. Resumimos alguns resultados já conhecidos na literatura exibindo a distância de Fisher-Rao em alguns subvariedades deste modelo estat´ıstico. Encontramos duas subvariedades totalmente geodésicas e exibi-mos uma fórmula fechada para a distância de Fisher-Rao nessas subvariedades. Apresen-tamos também o cálculo da distância entre certos pares de pontos através da resolu¸cão de sistemas. Utilizando uma isometria neste espa¸co, derivamos alguns limitantes superiores para a distância de Fisher-Rao no caso geral. Através de algumas simula¸cões, mostramos que, em alguns casos, os limitantes apresentam boas aproxima¸cões para distância. Além disso, aplicamos a distância de Fisher-Rao ao problema de simplifica¸cão de misturas gaus-sianas através de algoritmos de agrupamento. Experimentos na área de segmenta¸cão de imagens são apresentados.

A organiza¸c˜ao do trabalho ´e descrita abaixo.

No Cap´ıtulo 1, apresentamos alguns conceitos de Geometria da Informa¸cão e in-troduzimos a métrica de Fisher e a distância de Fisher-Rao. Relembramos a defini¸cão de curvatura numa variedade Riemanniana e mostramos algumas rela¸cões entre a distância de Fisher e a divergência de Kullback-Leibler, uma outra medida de dissimilaridade entre distribui¸cões.

Apresentamos, no Cap´ıtulo 2, uma análise da distância de Fisher-Rao no espa¸co composto por distribui¸cões normais multivariadas. Descrevemos uma isometria neste espa¸co e mostramos fórmulas fechadas para a distância de Fisher-Rao em alguns casos par-ticulares. Derivamos duas subvariedades totalmente geodésicas e calculamos a distância de Fisher-Rao para certos pares de pontos. Apresentamos também alguns limitantes para a distância de Fisher-Rao e fazemos algumas compara¸cões entre os mesmos.

O problema de simplifica¸cão de misturas Gaussianas é apresentado no Cap´ıtulo 3. Descrevemos os algoritmos de agrupamento de dados k-médias e hierárquico e apresen-tamos algumas defini¸cões de centroide no modelo das distribui¸cões normais multivari-adas. Fazemos algumas adapta¸cões dos algoritmos de agrupamentos apresentados para serem utilizados no problema de simplifica¸cão de misturas Gaussianas com matrizes de covariância diagonais através do uso da distância de Fisher-Rao. Além disso, mostramos também uma aplica¸cão na área de segmenta¸cão de imagens.

No ´ultimo cap´ıtulo apresentamos algumas considera¸c˜oes finais e perspectivas de futuros trabalhos.

(16)

Cap´ıtulo

1

Preliminares em Geometria da

Informa¸

c˜

ao

Neste cap´ıtulo, apresentamos alguns conceitos e resultados preliminares em Geome-tria da Informa¸cão. O objetivo é introduzir as principais ferramentas que serão utilizadas ao longo do texto. As principais referências sobre Geometria da Informa¸cão nas quais foram baseadas este cap´ıtulo foram [2], [3] e [11]. Assumimos também conhecimento prévio dos resultados básicos em geometria Riemanniana que podem ser encontrados em [15] e [32].

1.1 Modelo estat´ıstico

Seja Ω o conjunto de todos os resultados poss´ıveis de um experimento aleatório, chamado de espa¸co amostral. Uma σ-álgebra F sobre o conjunto Ω é uma cole¸cão de sub-conjuntos de Ω a qual é fechada sobre uniões, interse¸cões enumeráveis e complementa¸cões de subconjuntos de _{F. Os elementos de F são chamados de eventos e dizemos que o par} (Ω,_{F) é um espa¸co mensurável.}

Defini¸cão 1.1. Uma fun¸cão P : F → R é chamada uma medida probabilidade sobre F quando

(i) 0_{≤ P (E) ≤ 1, para todo E ∈ F;} (ii) P (∅) = 0;

(iii) Se E1, E2, . . . são conjuntos disjuntos dois a dois no espa¸co mensurável (Ω,F) então

P [ i≥1 Ei ! =X i≥1 P (Ei).

(17)

1.1. Modelo estat´ıstico 17 Um espa¸co de probabilidade ´e um espa¸co mensur´avel (Ω,_{F, P ) com medida de} probabilidade P .

Uma variável aleatória real X : Ω→ R sobre um espa¸co de probabilidade é uma fun¸cão real, definida no espa¸co amostral Ω, tal que {ω ∈ Ω; X(ω) ≤ x} ∈ F para todo x ∈ R. Uma variável aleatória de dimensão n, X = (X1, . . . , Xn), é um vetor

cujas componentes Xi : Ω → R, i = 1, . . . , n, são variáveis aleatórias reais. Seja X um

subconjunto de Rn_{. Dizemos que X : Ω} _{→ X é uma variável aleatória discreta quando}

X é um conjunto enumerável de pontos. A fun¸cão de massa de probabilidade de X (uma distribui¸cão de probabilidade discreta) é uma fun¸cão p :_{X → R dada por}

p(x) = P (X = x) = P \ x∈X {ω ∈ Ω; Xi(ω) = xi} ! a qual satisfaz X x∈X p(x) = 1.

Quando_{X = R}n_ou_{X é uma união de bolas em R}n_{dizemos que X : Ω}_{→ X é uma variável}

aleatória cont´ınua. A fun¸cão de densidade de probabilidade de X (uma distribui¸cão de probabilidade cont´ınua) é uma fun¸cão p :X → R satisfazendo

p(x)_{≥ 0, ∀ x ∈ X e} Z

X

p(x)dx = 1, em que R

X ´e a integral com respeito `a medida de Lebesgue sobre X . Dado um conjunto

abertoD ⊂ X , a rela¸cão entre a medida de probabilidade P e a fun¸cão de densidade p(x) é dada por

P (X _{∈ D) =} Z

D

p(x)dx.

Um modelo estat´ıstico _{S é uma fam´ılia de distribui¸cões de probabilidade sobre} X . Neste trabalho estamos interessados em uma fam´ılia de fun¸cões de distribui¸cões de probabilidade que depende de vários parâmetros e pode ser vista como uma variedade. Defini¸cão 1.2. Seja

S = {pθ(x) = p(x; θ); θ = (θ1, θ2, . . . , θn)∈ Θ},

uma fam´ılia de distribui¸c˜oes de probabilidade sobre_{X . Suponha que cada elemento p}θ de

S seja parametrizado por n vari´aveis reais θ = (θ1, θ2, . . . , θn)∈ Θ, em que Θ, chamado

de espa¸co dos parˆametros, ´e um subconjunto aberto do Rn _{(ou de um espa¸co isomorfo ao}

Rn). O conjunto S ´e um subconjunto do espa¸co das fun¸c˜oes P(X ) = f : _{X → R; f(x) ≥ 0 ∀ x ∈ X e} Z X f (x)dx = 1 .

(18)

Suponhamos que

(i) a aplica¸c˜ao ϕ : Θ → S definida por ϕ(θ) = pθ ´e injetiva e suficientemente suave

(isto é, diferenciável quantas vezes forem necessárias); (ii) o conjunto ∂pθ ∂θ1 , . . . , ∂pθ ∂θn

´e linearmente independente sobre X .

Dizemos que _{S é um modelo paramétrico de dimensão n.}

As condi¸cões (i) e (ii) da defini¸cão acima são chamadas condi¸cões de regularidade do modelo estat´ıstico S.

Uma aplica¸cão bastante utilizada em teoria estat´ıstica é a fun¸cão de verossimil-han¸ca L : S → F(X , R), em que F(X , R) = {f; f : X → R é diferenciável}, definida por

L(pθ(x)) = log p(x; θ).

As derivadas parciais da aplica¸c˜ao L, ∂L(pθ(x))

∂θj

= ∂ log p(x; θ) ∂θj

,

para todo 1≤ j ≤ n, são chamadas fun¸cões score e descrevem como a informa¸cão contida em pθ varia na dire¸cão de θj.

Proposi¸c˜ao 1.3. [11] A segunda condi¸c˜ao de regularidade de um modelo estat´ıstico S = {pθ; θ ∈ Θ} vale se, e somente se, pra todo θ ∈ Θ o conjunto

∂L(pθ(x)) ∂θ1 , . . . ,∂L(pθ(x)) ∂θn ´ e linearmente independente.

Demonstra¸cão. Basta observar que ∂L(pθ(x)) ∂θj = ∂ log p(x; θ) ∂θj = 1 p(x; θ) ∂p(x; θ) ∂θj . Para dar continuidade à teoria, vamos assumir que as ordens de integra¸cão e de diferencia¸cão podem ser livremente trocadas, assim poderemos fazer contas do tipo

Z X ∂p(x; θ) ∂θi dx = ∂ ∂θi Z X p(x; θ)dx = ∂ ∂θi (1) = 0.

(19)

1.1. Modelo estat´ıstico 19 O modelo estat´ıstico _{S = {p}θ; θ ∈ Θ} ´e a imagem de uma aplica¸c˜ao injetiva ϕ,

dada por ϕ(θ) = pθ, a qual pode ser vista como um sistema de coordenadas (Θ, ϕ) paraS.

Ou seja, a própria parametriza¸cão do modelo estat´ıstico S é um sistema de coordenadas global (o que ocorre com a maioria de modelos paramétricos). A parametriza¸cão de um modelo estat´ıstico não é única. Seja ψ um difeomorfismo de classe C∞ _{de Θ em}

ψ(Θ) _{⊂ R}n_{, a aplica¸c˜ao ϕ} _{◦ ψ}−1 _{: ψ(Θ)}

→ S, é um outro sistema de coordenadas para_{S, ver Figura 1.1. Então, tomando ξ = ψ(θ) como parâmetro em vez de θ, obtemos} S = {pψ−1_(ξ); ξ ∈ ψ(Θ)}. Se tomarmos parametriza¸cões que são difeomorfismos C∞então

podemos considerar S uma variedade diferenci´avel C∞_{, a qual chamamos de variedade}

estat´ıstica. S pθ Θ ψ(Θ) θ ϕ ψ ϕ_{◦ ψ}−1 ψ(θ)

Figura 1.1: Sistemas de coordenadas.

Dada uma parametriza¸c˜ao do modelo estat´ıstico S, ϕ(θ) = pθ, o conjunto

∂ ∂θ1 θ , . . . , ∂ ∂θn θ

´e uma base do espa¸co tangente de S em pθ.

Observamos que, para facilitar a nota¸cão, muitas vezes ao longo do texto vamos identificar o modelo estat´ısticoS com o seu espa¸co de parâmetros Θ, isto é, S ≡ Θ. Dessa forma, vamos nos referir à distribui¸cão pθ como θ e usar frases como “o ponto θ” e “o

espa¸co tangente TθS”.

Exemplo 1.4 (Distribui¸cão de Poisson). Uma variável aleatória discreta X, em que X = {0, 1, 2, . . .}, segue uma distribui¸cão de Poisson com parâmetro λ > 0 quando a sua fun¸cão de massa de probabilidade é dada por

p(x; λ) = P (X = x) = λ

x

x! e

−λ

.

(20)

S = {pλ = p(x, λ); λ ∈ Θ} em que Θ = R+∗. Notemos que a aplica¸c˜ao λ7→ pλ ´e injetiva

e, al´em disso, o conjunto

∂pλ(x) ∂λ = e −λ_(x − λ)λx−1 x!

tem apenas uma fun¸cão não identicamente nula e portanto as condi¸cões de regularidade da Defini¸cão 1.2 são satisfeitas.

Exemplo 1.5(Distribui¸cão Normal Univariada). Uma variável aleatória real cont´ınua X, X = R, segue uma distribui¸cão normal univariada (também conhecida como distribui¸cão Gaussiana univariada) com média µ_{∈ R e desvio padrão σ ∈ (0, ∞) quando a sua fun¸cão} de densidade de probabilidade é definida por

p(x; µ, σ) = √1 2πσ exp − 1 2 x_{− µ} σ 2! . Chamaremos de _M_H = _{pθ = p(x; µ, σ); θ = (µ, σ) ∈ Θ}, em que Θ = {(µ, σ); µ ∈

R e θ ∈ (0, +∞)}, o modelo estat´ıstico de dimensão 2 composto por essas distribui¸cões. Como observado acima, muitas vezes vamos identificar o modelo estat´ıstico com o seu espa¸co de parâmetros e portanto podemos escreverMH ={θ; θ = (µ, σ) ∈ R × (0, +∞)}.

Para verificar as condi¸cões de regularidade da Defini¸cão 1.2, primeiro consideremos a fun¸cão de verossimilhan¸ca L(pθ(x)) =− (x− µ)2 2σ2 − log σ − log √ 2π. As derivadas parciais de L são dadas por

∂L(pθ(x)) ∂µ = x− µ σ2 , ∂L(pθ(x)) ∂σ = (x− µ)2 σ3 − 1 σ,

logo, pela Proposi¸c˜ao 1.3, para mostrar que a condi¸c˜ao (ii) vale, basta mostrar que o conjunto nx−µ_σ2 , (x−µ)2 σ3 − 1 σ o

é linearmente independente. De fato, fazendo a mudan¸ca de variável y = x− µ, segue que o conjunto de polinômios n y

σ2, y2 σ3 − 1 σ o ´e linearmente independente. Agora, dados (µ1, σ1) e (µ2, σ2) em Θ, segue que

p(x; µ1, σ1) =p(x; µ2, σ2)⇒ log p(x; µ1, σ1) = log p(x; µ2, σ2)⇒ −(x− µ1) 2 2σ2 1 − log σ1 =− (x_{− µ}2)2 2σ2 2 − log σ2

(21)

1.1. Modelo estat´ıstico 21 e, através de algumas manipula¸cões algébricas, é fácil ver que µ1 = µ2 e σ1 = σ2. Portanto

vale a condi¸c˜ao (i).

No exemplo abaixo destacamos um modelo estat´ıstico que ´e bastante utilizado em Geometria da Informa¸c˜ao.

Exemplo 1.6 (Fam´ılia de Distribui¸c˜oes Exponencial). Seja _{S = {p}θ; θ∈ Θ} um modelo

estat´ıstico de dimens˜ao n. Suponhamos que cada elemento de_{S admite a decomposi¸c˜ao}

p(x; θ) = exp n X i=1 θiti(x)− F (θ) + C(x) ! ,

em que F (θ) é uma fun¸cão diferenciável sobre Θ (chamada de fun¸cão de log-normalizer ), C(x), t1(x), . . . , tn(x) são fun¸cões reais e diferenciáveis sobre X ⊂ Rk e, o conjunto

{1, t1(x), . . . , tn(x)} é linearmente independente. Então, dizemos que S é uma fam´ılia

de distribui¸cões exponencial e que os parâmetros θi’s, 1≤ i ≤ n, são seus parâmetros

nat-urais ou parâmetros canônicos. Vamos verificar as condi¸cões de regularidade do modelo estat´ıstico _{S. Para mostrar a injetividade de ϕ : Θ → S, suponhamos que ϕ(θ) = ϕ(ξ),} então p(x; θ) =p(x; ξ) _⇒ log p(x; θ) = log p(x; ξ)⇒ n X i=1 θiti(x)− F (θ) = n X i=1 ξiti(x)− F (ξ).

Como _{{1, t}1(x), . . . , tn(x)} ´e um conjunto linearmente independente segue que θi = ξi

para todo 1 _{≤ i ≤ n. Consideremos agora a fun¸c˜ao de verossimillhan¸ca L e as suas} derivadas parciais dadas por

L(pθ(x)) = n X i=1 θiti(x)− F (θ) + C(x) ∂L(pθ(x)) ∂θi =ti(x)− ∂F (θ) ∂θi , , 1_{≤ i ≤ n.}

Novamente, pela independˆencia linear do conjunto _{{1, t}1(x), . . . , tn(x)}, temos que

∂L(pθ(x))

∂θ1

, . . . ,∂L(pθ(x)) ∂θn

é também um conjunto linearmente independente e, pela Proposi¸cão 1.3, vale a condi¸cão (ii).

Notemos que a condi¸c˜ao R

X p(x; θ)dx = 1 implica F (θ) = log Z X exp n X i=1 θiti(x) + C(x) ! dx

(22)

e portanto é fácil ver que F é uma fun¸cão estritamente convexa. Na teoria de análise convexa, uma dualidade fundamental é dada pela transforma¸cão de Legendre-Fenchel: toda fun¸cão convexa F admite uma fun¸cão dual conjugada convexa F∗ _{dada por}

F∗(η) = sup

η {hη, θi − F (θ)}.

O supremo é atingido no único ponto em que o gradiente de F∗ _{se anula, isto é, quando}

η=_{∇F (θ). O parâmetro η é chamado de parâmetros de expectativa e θ e η são chamados} de parâmetros duais, ver referência [44].

A fam´ılia de distribui¸cões exponenciais representam uma ampla classe de dis-tribui¸cões discretas e cont´ınuas que são determinadas pela sua fun¸cão de log-normalizer, tais como Bernoulli, multinomial, gamma, Poisson, normal, entre outras . Em [44] os autores disponibilizaram uma tabela com a fun¸cão de log-normalizer e as mudan¸cas de parâmetros das distribui¸cões de probabilidade mais utilizadas. Por exemplo, a distribui¸cão normal univariada apresentadas no Exemplo 1.5 pode ser escrita como

p(x; µ, σ) = 1 σ√2πexp − µ 2 2σ2 exp − x 2 2σ2 + µx σ2 . Seus parˆametros naturais s˜ao dados por

ϑ= (ϑ1, ϑ2) = µ σ2,− 1 2σ2 ∈ R × (−∞, 0) e a sua fun¸c˜ao de log-normalizer ´e

F (ϑ) =− ϑ 2 1 4ϑ2 +1 2log −π ϑ2 . Dessa forma, seus parˆametros de expectativa s˜ao

η =_{∇F (θ) =} − ϑ1 2ϑ2 ,₋ 1 2ϑ2 +₋ ϑ 2 1 4ϑ2 2 = (µ, µ2_{+ σ}2₎ ∈ R × (0, ∞).

1.2 M´

etrica de Fisher

Seja_{S um modelo estat´ıstico, em 1945 Rao [49] introduziu uma estrutura} Rieman-niana em _{S atrav´es da matriz de informa¸c˜ao de Fisher.}

Essencialmente, a matriz de informa¸cão de Fisher é uma medida da quantidade de informa¸cão que um conjunto de dados observados “carrega” sobre um parâmetro descon-hecido θ em qualquer dire¸cão dada, [19].

Defini¸c˜ao 1.7. Seja _{S = {p}θ; θ ∈ Θ} um modelo estat´ıstico de dimens˜ao n. Dado um

(23)

1.2. M´etrica de Fisher 23 ordem n, tal que

gij(θ) =Eθ ∂ ∂θi log p(x; θ) ∂ ∂θj log p(x; θ) = Z X ∂ ∂θi log p(x; θ) ∂ ∂θj log p(x; θ)p(x; θ)dx, (1.1) em que Eθ(f ) = R

Xf (x)p(x; θ)dx é a esperan¸ca com respeito à distribui¸cão pθ. Quando

n = 1 chamamos o escalar G(θ) de informa¸c˜ao de Fisher.

Observa¸cão 1.8. Embora algumas vezes a integral dada na equa¸cão (1.1) seja divergente, neste trabalho vamos assumir quegij(θ) é finita para todo θ e todo i, j, e que gij : Θ→ R

´e C∞_.

Teorema 1.9. [11] A matriz de informa¸cão de Fisher sobre qualquer modelo estat´ıstico é simétrica, definida positiva e não-degenerada.

Demonstra¸c˜ao. A simetria da matriz G(θ) segue diretamente da defini¸c˜ao. Observemos que cada entrada gij(θ) pode ser escrita como

gij(θ) = 4 Z X ∂ ∂θi pp(x; θ) ∂ ∂θj pp(x; θ) dx. De fato, gij(θ) = Z X ∂ ∂θi log p(x; θ) ∂ ∂θj log p(x; θ)p(x; θ)dx = Z X 1 p(x; θ) ∂p(x; θ) ∂θi 1 p(x; θ) ∂p(x; θ) ∂θj p(x; θ)dx =4 Z X 1 2pp(x; θ) ∂p(x; θ) ∂θi 1 2pp(x; θ) ∂p(x; θ) ∂θj dx =4 Z X ∂ ∂θi pp(x; θ) ∂ ∂θj pp(x; θ) dx.

Assim, para todo θ e para todo v = (v1, . . . , vn)t∈ TθS, v 6= 0, segue que

vtGv =X i,j gijvivj =4X i,j Z X vi ∂ ∂θi pp(x; θ) vj ∂ ∂θj pp(x; θ) dx =4 Z X X i vi ∂ ∂θi pp(x; θ) ! X j vj ∂ ∂θj pp(x; θ) ! dx =4 Z X X i vi ∂ ∂θi pp(x; θ) !2 dx≥ 0,

(24)

logo G(θ) é uma matriz definida não-negativa. Além disso, vtGv = 0⇔ Z X X i vi ∂ ∂θi pp(x; θ) !2 dx = 0⇔ X i vi ∂ ∂θi pp(x; θ) !2 = 0 ⇔X i vi ∂ ∂θipp(x; θ) = 0 ⇔ X i vi ∂p(x; θ) ∂θi = 0 ⇔ vi = 0, ∀ i = 1, . . . , n, e ∀ x ∈ X ,

uma vez que, pelas condi¸c˜oes de regularidade do modelo estat´ıstico _{S, o conjunto} ∂pθ

∂θ1

, . . . ,∂pθ ∂θn

é linearmente independente. Logo G(θ) é não degenerada e consequentemente G(θ) é

definida positiva.

A proposi¸cão acima nos diz que a matriz de informa¸cão de Fisher é uma métrica Riemanniana, também conhecida como métrica de Fisher. Portanto, segue que o modelo estat´ıstico _{S, munido da métrica Fisher, é uma variedade Riemanniana.}

Exemplo 1.10. Seja o modelo estat´ıstico _M_H = _{{θ; θ = (µ, σ) ∈ R × (0, +∞)} das} distribui¸cões normais univariadas dado no Exemplo 1.5. A matriz de informa¸cão de Fisher de _M_H em θ é dada por

G(θ) = 1 σ2 0 0 2 σ2 ! , (1.2)

ver referˆencia [18]. Logo, _M_H ´e uma variedade Riemanniana.

Os pr´oximos dois teoremas descrevem duas importantes propriedades da m´etrica de Fisher.

Teorema 1.11. [11] A métrica de Fisher é invariante em rela¸cão à reparametriza¸cão do espa¸co amostral.

Demonstra¸c˜ao. Seja S = {pθ(x) = p(x, θ); θ ∈ Θ} um modelo estat´ıstico sobre X ⊆ Rn

e seja f : _{X → Y uma transforma¸c˜ao invert´ıvel que induz um modelo estat´ıstico S}f =

{qθ(y) = q(y, θ); y = f (x) e θ ∈ Θ} sobre Y ⊆ Rn. A rela¸c˜ao entre as fun¸c˜oes de

densidade e a aplica¸c˜ao f ´e dada por

(25)

1.2. Métrica de Fisher 25 em que Jf(x) é a matriz Jacobiana da transforma¸cão f . Dessa forma

log pθ(x) = log qθ(y) + log Det(Jf(x)),

diferenciado em rela¸c˜ao a θi, temos que

∂ ∂θi log pθ(x) = ∂ ∂θi log qθ(y) , (1.4)

i = 1, . . . , n, pois f n˜ao depende de θ. Assim, segue de (1.3) e (1.4) que

gij(θ) = Z X ∂ ∂θi log pθ(x) ∂ ∂θj log pθ(x) pθ(x)dx = Z X ∂ ∂θi log qθ(y) ∂ ∂θj log qθ(y) qθ(y) Det(Jf(x))dx = Z Y ∂ ∂θi log qθ(y) ∂ ∂θj log qθ(y) qθ(y)dy

e portanto segue a prova do Teorema.

Teorema 1.12. [11] A métrica de Fisher é invariante em rela¸cão à reparametriza¸cão do espa¸co dos parâmetros. Isto é, sejam θ = (θ1, . . . , θn) e ξ = (ξ1, . . . , ξn) dois sistemas de

coordenadas do modelo estat´ıstico_{S tais que θ = θ(ξ), ou seja, θ}i = θi(ξ1, . . . , ξn), e sejam

G(θ) e ˜G(ξ) as métricas de Fisher em rela¸cão as coordenadas θ e ξ, respectivemente, então vale ˜ gij(ξ) = gkr(θ) θ=θ(ξ) ∂θk ∂ξi ∂θr ∂ξj .

Demonstra¸c˜ao. Consideremos a distribui¸c˜ao ˜pξ(x) = pθ(ξ)(x), temos que

∂ ˜pξ(x) ∂ξi = ∂θk ∂ξi ∂pθ(x) ∂θk e ∂ ˜pξ(x) ∂ξj = ∂θr ∂ξj ∂pθ(x) ∂θr . Logo, ˜ gij(ξ) = Z X ∂ ∂ξi log ˜pξ(x) ∂ ∂ξj log ˜pξ(x) ˜ pξ(x)dx = Z X 1 ˜ pξ(x) ∂ ˜pξ(x) ∂ξi ∂ ˜pξ(x) ∂ξj dx = Z X 1 pθ(ξ)(x) ∂pθ(x) ∂θk ∂pθ(x) ∂θr dx ∂θk ∂ξi ∂θr ∂ξj =gkr(θ) θ=θ(ξ) ∂θk ∂ξi ∂θr ∂ξj . Uma m´etrica Riemanniana sobre um modelo estat´ıstico _{S = {p}θ(x); θ ∈ Θ}

(26)

igual `a m´etrica de Fisher. Esse importante resultado foi provado em 1972 por Chentsov em [17, Cap. 11].

Abaixo listamos dois dos principais resultados da teoria de informa¸cão que estão relacionados com a matriz de informa¸cão de Fisher.

Entropia de Shannon

Em [8], Burbea e Rao mostram que a matriz de informa¸c˜ao de Fisher G(θ) pode ser vista como a matriz Hessiana da entropia de Shannon,

H(p) =₋ Z p(x; θ) log p(x; θ)dx. Isto ´e, gij(θ) = ∂2_H(p) ∂θi∂θj .

Limitante de Cram´er-Rao

Suponha que um conjunto de dados x foi gerado aleatoriamente, sujeito a uma distribui¸cão de probabilidade a qual é desconhecida mas assumida pertencer a um modelo estat´ıstico S = {pθ; θ ∈ Θ}. Consideremos o problema de estimar o parâmetro

descon-hecido θ por uma fun¸c˜ao ˆθ(x) dos dados x. A aplica¸c˜ao ˆθ = (ˆθ1, . . . , ˆθn) : X → Rn

introduzida para esse propósito é chamada de estimador. Dizemos que ˆθ é um estimador não enviesado quando

Eθ( ˆθ(X)) = θ para todo θ ∈ Θ.

O erro médio de um estimador não enviesado ˆθ pode ser expresso como a matriz de covariância

covθ( ˆθ) = Eθ

( ˆθ(X)− θ)( ˆθ(X)− θ)t

.

Uma questão a ser analisada é: o quão bom um estimador pode ser? De maneira independente, C. Rao em [49] e H. Cramér em [20] resolveram esse problema, mais ou menos na mesma época, e determinaram o que é conhecido hoje como o limitante de Cramér-Rao. Este limitante afirma que a variância de qualquer estimador não enviesado é, pelo menos, maior que o inverso da informa¸cão de Fisher. Um estimador que atinge esse limitante inferior é chamado de estimador eficiente.

Teorema 1.13 (Limitante de Cram´er-Rao). A matriz de variˆancia covθ( ˆθ) de um

esti-mador não enviesado ˆθ satisfaz covθ( ˆθ) ≥ G(θ)−1, isto é, a matriz covθ( ˆθ)− G(θ)−1 é

(27)

1.3. Distˆancia de Fisher-Rao 27

1.3 Distˆ

ancia de Fisher-Rao

Seja M uma variedade Riemanniana munida de uma m´etrica G = [gij(p)], p∈ M.

Consideremos (U, ϕ), U _{⊂ R}n _{aberto, um sistema de coordenadas para M em torno do}

ponto p tal que ϕ(x1, . . . , xn) = p, o elemento infinitesimal da m´etrica G ´e dado por

ds2 =

n

X

i,j=1

gij(p)dxidxj.

Seja γ uma curva diferenci´avel por partes em M , definida no intervalo [t1, t2],

conectando dois pontos p e q em M , isto ´e, γ(t1) = p e γ(t2) = q. O comprimento de arco

da curva γ ´e dado por

`(γ) = Z t2 t1 q hγ0_{(t), γ}0_(t)_i G dt,

em que_{hu, vi}G= ut[gij(p)]v ´e o produto interno definido por G e u, v∈ TpM s˜ao vetores

coluna.

A distância geodésica entre dois pontos p e q em M é dada pelo menor comprimento de arco de uma curva γ conectando p e q. Essa curva é chamada de curva geodésica.

Uma curva geod´esica γ em um sistema de coordenadas (U, ϕ), γ(t) = (x1(t), . . . , xn(t)),

é dada pela solu¸cão das equa¸cões de Euler-Lagrange, d2_x k dt2 + X i,j Γkij dxi dt dxj dt = 0, k = 1,· · · , n, (1.5) na qual Γk

ij s˜ao os s´ımbolos de Christoffel dados por

Γmij = 1 2 X k ∂ ∂xi gjk+ ∂ ∂xj gki− ∂ ∂xk gij gkm, (1.6)

em que [gij_{] ´e a matriz inversa de G.}

Observemos que, por defini¸c˜ao, o vetor tangente γ0_{(t) tem comprimento constante}

[15], isto ´e, kγ0_(t) k2 ₌ n X i,j=1 gij(γ(t)) dθi dt dθj dt = cte. (1.7)

Defini¸c˜ao 1.14. Seja o modelo estat´ıstico _{S = {p}θ; θ ∈ Θ}. A distˆancia de Fisher-Rao

entre duas distribui¸c˜oes pθ1 e pθ2 em S, dF, ´e dada pelo menor comprimento de arco de

uma curva em Θ conectando θ1 e θ2.

(28)

pelas equa¸c˜oes (1.5) e pelas condi¸c˜oes de contorno (

γ(t1) = pθ1

γ(t2) = pθ2

. (1.8)

A distância de Fisher-Rao foi introduzida por C. Rao em [49] como uma medida adequada para o cálculo da distância entre duas popula¸cões. Na prática é muito dif´ıcil o cálculo da distância de Fisher-Rao na maioria dos modelos estat´ısticos, uma vez que envolve a solu¸cão de equa¸cões diferenciais de segunda ordem. Em alguns casos podemos simplificar o cálculo dessa distância relacionando a métrica do espa¸co com a métrica de espa¸cos já conhecidos (por exemplo, os espa¸cos Euclidiano, hiperbólico, e esférico). Atkinson e Mitchell [5] e Burbea [10] descreveram a distância de Fisher-Rao entre algumas distribui¸cões de probabilidade: distribui¸cão de Poisson, Multinomial, Gamma, normal, entre outras. No Exemplo 1.18, descreveremos a distância de Fisher-Rao no espa¸co das distribui¸cões normais univariadas. A métrica de Fisher nesse espa¸co está relacionada com a métrica do espa¸co hiperbólico e, portanto, existe uma fórmula expl´ıcita para a distância de Fisher-Rao. No caso do espa¸co formado por distribui¸cões normais multivariadas, ainda não se tem uma fórmula fechada para a distância de Fisher-Rao no caso geral, como veremos no Cap´ıtulo 2.

Observa¸cão 1.15. Neste texto, vamos nos referir à distância de Fisher-Rao entre as distribui¸cões pθ1 e pθ2 como a distância entre os pontos θ1 e θ2.

Notemos que, como a métrica de Fisher é invariante em rela¸cão à mudan¸ca de parametriza¸cão, a distância de Fisher-Rao também o é.

Nas defini¸cões abaixo, introduzimos o conceito de subvariedade totalmente geodésica. Defini¸cão 1.16. Seja M uma variedade de dimensão n. Quando N é um subconjunto de M e a inclusão i : N → M é um mergulho (isto é, i é diferenciável e di(p) : TpN → Ti(p)M

´e injetiva para todo p∈ N) dizemos que N ´e uma subvariedade de M.

Defini¸cão 1.17. Uma subvariedade N de uma variedade Riemanniana M é dita total-mente geodésica quando toda geodésica de N é geodésica de M .

Exemplo 1.18 (Distância entre duas distribui¸cões normais univariadas). Voltemos ao modelo estat´ıstico _M_H = _{{θ; θ = (µ, σ) ∈ R × (0, +∞)} composto por distribui¸cões} normais univariadas, apresentado no Exemplo 1.5. Neste espa¸co, uma forma fechada para a distância de Fisher-Rao é conhecida via uma associa¸cão com o modelo do plano hiperbólico, ver referências [5], [10] e [18].

Pela matriz de informa¸c˜ao de Fisher em MH dada na equa¸c˜ao (1.2), segue que a

expressão da métrica em _M_H é dada por

ds2 ₌ dµ2 + 2dσ2

(29)

1.3. Distância de Fisher-Rao 29 Como a matriz da métrica no modelo do plano superior de Poincaré, H2 ₌_{{(x, y) ∈}

R2; y > 0}, ´e dada por

GP(x, y) = 1 y2 0 0 1 y2 ! , (1.9)

segue que a métrica em_M_H está relacionada com a métrica de H2 _{através da aplica¸cão}

f : _M_H _{→ H}2 (µ, σ)_7→ µ √ 2, σ . (1.10)

Logo, a distˆancia de Fisher-Rao entre os pontos (µ1, σ1) e (µ2, σ2) pertencentes a MH,

pode ser expressa em termos da distância hiperbólica de Poincaré , dH2, como

dF((µ1, σ1), (µ2, σ2)) = √ 2d_H2 µ1 √ 2, σ1 , µ√2 2, σ2 . Uma express˜ao anal´ıtica para dF por ser dada por, ver referˆencia [1],

dF((µ1, σ1), (µ2, σ2)) = √ 2 arccosh   1 + µ1 √ 2, σ1 −_√µ2 2, σ2 2 2σ1σ2    (1.11)

em que |.| ´e a norma Euclidiana em R2_.

As curvas geodésicas de MH são as imagens inversas, por meio da transforma¸cão

f , das curvas geodésicas de H2_{. Essas geodésicas são as semirretas verticais positivas e}

as semi-elipses, centradas em σ = 0, com excentricidade _√1

2. Resolvendo o sistema de

γ₁ γ₂

Figura 1.2: Geod´esicas de MH.

(30)

curva geod´esica γ : [0, 1]_{→ M}_H, tal que γ(0) = (µ1, σ1) e γ(1) = (µ2, σ2),dada por γ(t) = µ1, σ1exp log σ2 σ1 t , se µ1 = µ2 (semirreta). Se µ1 6= µ2 (semi-elipse), γ(t) = c 2 4 √_c 3tanh √c3(c2+ t) 2sgn(µ2− µ1) + c1, c4 s c2 4c3 cosh √c3(c2+ t) + 1 ! , na qual c1 = µ2 1− µ22+ 2σ21− 2σ22 2(µ1− µ2) , c2 =− tanh−1 µ1−c4 √ c2 4−2c4µ1+µ21+2σ12 tanh−1 µ1−c4 √ c2 4−2c4µ1+µ21+2σ21 − tanh−1 µ2−c4 √ c2 4−2c4µ1+µ21+2σ12 , c3 =4 tanh −1 µ1− c4 pc2 4− 2c4µ1+ µ21+ 2σ21 ! − tanh−1 µ2− c4 pc2 4− 2c4µ1+ µ21+ 2σ21 !!2 , c4 = (c2 4− 2c4µ1 + µ21+ 2σ12)1/4 c3 .

A Figura 1.3 ilustra a curva geodésica que liga os pontos P = (_{−0.5, 1) e Q =} (1, 1.5) no plano _M_H e a Figura 1.4 ilustra o gráfico de algumas distribui¸cões que estão relacionadas com pontos dessa curva.

P

R Q

Figura 1.3: Curva geod´esica ligando P e Q.

P

R

Q

Figura 1.4: Gr´afico das distribui¸c˜oes normais.

Seja_M_H_µ0 a subvariedade de_M_H formada pelas distribui¸cões normais univariadas com média constante, _M_H_µ0 =_{{θ ∈ M}_H; µ = µ0 ∈ R constante}. A distância de

(31)

Fisher-1.4. Curvaturas 31 Rao entre dois pontos (µ0, σ1) e (µ0, σ2) em MHµ0 ´e dada por

dµ0((µ0, σ1), (µ0, σ2)) = √ 2 log σ2 σ1 .

As curvas geodésicas em MHµ0 são as semirretas verticais positivas e portanto, MHµ0 é

uma subvariedade totalmente geodésica, ver Figuras 1.5 e 1.6. Ou seja, a distância em Fisher-Rao restrita à subvariedadeMHµ0 é igual a distância na variedade MH, dµ0 = dF.

A B C

Figura 1.5: Reta ligando A e B.

A

B C

Figura 1.6: Gráfico das distribui¸cões normais. Consideremos agora a subvariedade MHσ0 formada pelas distribui¸cões normais

univariadas com o mesmo desvio padr˜ao,MHσ0 ={θ ∈ MH; σ = σ0 ∈ (0, ∞) constante}.

A distância de Fisher-Rao entre duas distribui¸cões (µ1, σ0) e (µ2, σ0) em MHσ0 é

dσ0((µ1, σ0), (µ2, σ0)) =

|µ1− µ2|

σ0

.

A subvariedade _M_H_σ0 não é totalmente geodésica, ver Figura 1.7 . De fato, dados dois pontos (µ1, σ0) e (µ2, σ0), temos que

dF((µ1, σ0), (µ2, σ0)) = √ 2 log (µ1 − µ2) 2_{+ 4σ}2 0 +|µ1− µ2|p(µ1− µ2)2+ 8σ02 4σ2 0 ! < |µ1− µ2| σ0 .

1.4 Curvaturas

Nesta se¸c˜ao, vamos relembrar as defini¸c˜oes de curvatura seccional e curvatura escalar.

(32)

M N

Figura 1.7: Distância não geodésica.

Dada uma m´etrica Riemanniana G = [gij] em uma variedade M , consideremos

(U, ϕ), U ⊂ Rn _{aberto, um sistema de coordenadas para M em torno do ponto p tal que}

ϕ(x1, . . . , xn) = p.

Defini¸c˜ao 1.19. Seja E ∈ TpM um subespa¸co de dimens˜ao 2 do espa¸co tangente TpM e

sejam x, y ∈ E dois vetores linearmente independentes. Ent˜ao a curvatura seccional de E em p ´e dada por

K(E; x, y) = P i,j,k,lRijklxiyjxkyl P i,j,k,l(gikgjl− gilgjk)xiyjxkyl , em que Rijkl= X l Rl ijkgls

´e o tensor curvatura Riemanniana, no qual os termos Rl

ijk podem ser expressos em termos

dos s´ımbolos de Christoffel Rl ijk = X s Γs ikΓ l js− X s Γs jkΓ l is+ ∂ ∂xj Γl ik− ∂ ∂xi Γl jk.

A curvatura seccional ´e uma generaliza¸c˜ao natural da curvatura Gaussiana das superf´ıcies, quando M = Rn_{, K(E; x, y) = 0 para todo E [15]. Variedades Riemannianas}

de curvatura seccional constante são as mais simples e suas propriedades já foram bastante estudadas, por exemplo, o espa¸co Euclidiano (K _{≡ 0), a esfera unitária (K ≡ 1) e o espa¸co} hiperbólico (K _{≡ −1). No Exemplo abaixo mostramos que a variedade M}_Htem curvatura constante igual a _−1/2.

Exemplo 1.20. Voltemos à variedade _M_H e consideremos a matriz da métrica de Fisher em _M_H, G, dada em (1.2). Como a variedade é de dimensão 2, temos apenas uma curvatura seccional. Um cálculo direto dos s´ımbolos de Cristoffel (1.6) associados à essa métrica mostra que os únicos s´ımbolos não nulos são

Γ1 12= Γ 1 21=− 1 σ, Γ 2 11 = 1 2σ e Γ 2 22 =− 1 σ.

(33)

1.5. Divergência de Kullback-Leibler 33 Logo, os únicos tensores de curvatura Riemanniana não nulos são

R1212 = R2121 =−

1

σ4 e R1221 = R2112 =

1 σ4.

Para x = (1, 0) e y = (0, 1), segue que

K(E, ; x, y) = R1212 g11g22 = −1/σ 4 2/σ4 =− 1 2.

Uma outra no¸cão de curvatura bastante utilizada é a de curvatura média, também conhecida como curvatura escalar.

Defini¸c˜ao 1.21. A curvatura escalar de uma variedade Riemanniana M ´e dada por

R =X

i,j

gijRij,

em que Rij s˜ao os tensores de Ricci dados por

Rik =

X

i,j

Rijksgsj.

1.5 Divergˆ

encia de Kullback-Leibler

A divergência de Kullback-Leibler ou entropia relativa é uma das medidas de dis-similaridade entre distribui¸cões mais utilizadas. Dadas duas distribui¸cões de probabilidade p e q pertencentes a um mesmo modelo estat´ıstico a divergência de Kullback-Leibler, DKL,

´e dada por

DKL(pkq) =          X xi∈X p(xi) log p(xi) q(xi) , se _{X ´e discreto} Z X p(x) logp(x) q(x)dx, se X ´e cont´ınuo (1.12)

Dada uma distribui¸cão p determinada a partir de um conjunto de observa¸cões, pode-mos dizer que DKL mede a informa¸cão perdida quando q é usada para aproximar p. A

divergência de Kullback-Leibler não é uma distância pois não satisfaz a condi¸cão de sime-tria. Por isso, muitas vezes, uma versão simetrizada da divergência é considerada. A divergência de Kullback-Leibler simetrizada é definida por

DKL(θ1, θ2) =

1

2(DKL(θ1kθ2) + DKL(θ2kθ1)) .

Exemplo 1.22(Divergência de Kullback-Leibler entre duas distribui¸cões normais univari-adas). Dadas duas distribui¸cões normais univariadas p1 = p(x; µ1, σ1) e p2 = p(x; µ2, σ2),

(34)

a divergência de Kullback-Leibler entre elas é dada por, ver referência [11], DKL(p1kp2) = 1 2 2 log σ2 σ1 +σ 2 1 σ2 2 + (µ1− µ2) 2 σ2 2 − 1 .

1.5.1 Rela¸

c˜

ao com a Distˆ

ancia de Fisher-Rao

A métrica de Fisher pode ser vista como uma aproxima¸cão de segunda ordem da divergência de Kullback-Leibler. As demostra¸cões dos resultados apresentados nessa subse¸cão podem ser encontradas em [11].

Proposi¸c˜ao 1.23. [11] Dado um modelo estat´ıstico_{S = {p}θ; θ ∈ Θ}, seja ∆θi = θi−θ0i.

Ent˜ao DKL(pθkpθ0) = 1 2 X i,j gij(θ0)∆θi∆θj + o(|∆θ|2),

em que [gij(θ0)] ´e a matriz de informa¸c˜ao de Fisher dada em (1.1) e o(|∆θ|2) representa

a quantidade que tende a zero mais r´apido que _|∆θ|2 quando ∆θ tende a zero.

Proposi¸c˜ao 1.24. [11] Sejam pθ1 e pθ2 duas distribui¸c˜oes pertencentes ao modelo

es-tat´ıstico S. Ent˜ao DKL(θ1kθ2) = 1 2d 2 F(θ1, θ2) + o(d2F(θ1, θ2)).

Corol´ario 1.25. [11] Sejam pθ1 epθ2 duas distribui¸c˜oes pertencentes ao modelo estat´ıstico

S e seja a divergˆencia de Kullback-Leibler simetrizada DKL(θ1, θ2) =

1

2(DKL(θ1kθ2) + DKL(θ2kθ1)). Ent˜ao

DKL(θ1, θ2) = d2F(θ1, θ2) + o(d2F(θ1, θ2)).

Considerando o modelo _M_H, é poss´ıvel escrever a divergência de Kullback-Leibler em fun¸cão da distância de Fisher-Rao, ver referência [18]. Dados dois pontos (µ, σ1) e

(µ, σ2), vimos no Exemplo 1.18 que a distˆancia de Fisher-Rao entre eles ´e dada por

d = dµ0((µ, σ1), (µ, σ2)) = √ 2 log σ2 σ1 . Sendo assim, segue que

DKL((µ, σ1)k(µ, σ2)) = 1 2 exp(₋√2d) + 2√d 2 − 1 e DKL((µ, σ1), (µ, σ2)) = exp(√2d) + exp(−√2d) 2 − 1.

(35)

1.5. Divergˆencia de Kullback-Leibler 35

1.5.2 Rela¸

c˜

ao com a Divergˆ

encia de Bregman

Seja F : Θ→ R+_{uma fun¸c˜ao diferenci´avel estritamente convexa, sobre um dom´ınio}

convexo Θ_{⊂ R}n_{. A divergˆencia de Bregman, D}

F, ´e definida por, ver referˆencia [45],

DF(θ1kθ2) = F (θ1)− F (θ2)− hθ1− θ2,∇F (θ2)i, (1.13)

em queh·, ·i ´e o produto interno usual do Rn _e_{∇F (θ}

2) ´e o vetor gradiente de F no ponto

θ2.

A divergˆencia de Bregman define uma fam´ılia de medidas de dissimilaridades. Por exemplo, quando F (θ) = n X i=1 θi2

a divergência de Bregman é o quadrado da distância Euclidiana.

Consideremos agora_{S uma fam´ılia de distribui¸cões exponencial, dada no Exemplo} 1.6. Sejam p(x; θp) e p(x; θq) duas distribui¸cões em S e seja F a fun¸cão de log nomalizer

que determina a fam´ılia S. A divergˆencia de Kullback-Leibler entre p(x; θp) e p(x; θq) ´e

equivalente à divergência de Bregman com os parâmetros naturais trocados, isto é, DKL(p(x; θp)kp(x; θq)) = DF(θqkθp). (1.14)

(36)

Cap´ıtulo

2

Distribui¸

c˜

ao Normal Multivariada

Neste cap´ıtulo vamos fazer um estudo da distância de Fisher-Rao no modelo es-tat´ıstico composto por distribui¸cões normais multivariadas. Neste modelo uma fórmula fechada para a distância de Fisher-Rao no caso geral ainda não é conhecida.

Uma variável aleatória X, _{X ⊂ R}n_{, segue uma distribui¸cão normal multivariada}

quando a sua fun¸c˜ao de densidade de probabilidade ´e definida por

p(x; µ, Σ) = (2π) −(n 2) pDet(Σ)exp −(x− µ) t_Σ−1_(x − µ) 2 , em que xt _{= (x}

1, . . . , xn)∈ Rné um vetor aleatório, µt = (µ1, . . . , µn) ∈ Rn é o vetor de

médias e Σ = [σij] ∈ Pn(R) é a matriz de covariância (Pn(R) é o conjunto das matrizes

sim´etricas definidas positivas de ordem n). Seja M = {θ; θ = (µ, Σ) ∈ Rn_{× P}

n(R)} o

modelo estat´ıstico formado por essas distribui¸cões. Através da identifica¸cão (µ, Σ)_{7→ (µ}1, . . . , µn, σ11, . . . , σ1n, . . . , σkk, . . . , σkn, . . . , σnn)

temos que _{M ´e isomorfo a um subconjunto aberto de R}p_{, p = n +} n(n+1) 2 , [54].

Ao longo do cap´ıtulo, descrevemos a distância de Fisher-Rao em algumas subvar-iedades de M e apresentamos alguns algoritmos numéricos que permitem o cálculo da distância de Fisher-Rao . Além disso, derivamos alguns limitantes para essa distância.

2.1 Distˆ

ancia de Fisher-Rao

Seja a variedade estat´ıstica _{M = {θ; θ = (µ, Σ) ∈ R}n_{× P}

n(R)}. Dado θ ∈ M a

(37)

2.1. Distˆancia de Fisher-Rao 37 matricial como gij(θ) = ∂µt ∂θi Σ−1∂µ ∂θj +1 2tr Σ−1∂Σ ∂θi Σ−1∂Σ ∂θi , (2.1) ver referˆencia [48].

Dado θ _{∈ M, o espa¸co tangente de M em θ ´e o conjunto T}θM = {(x, A); x ∈

Rn e A ∈ Sn(R)}, em que Sn(R) ´e o espa¸co das matrizes sim´etricas de ordem n com

entradas reais, [54]. Sejam V = (x, A) e W = (y, B) vetores pertencentes a TθM, o

produto interno no ponto θ = (µ, Σ) associado a matriz de informa¸c˜ao de Fisher G(θ), dada em (2.1), ´e hV, W iθ = xtΣ−1y+ 1 2tr(Σ −1 AΣ−1B). (2.2)

Logo, o elemento infinitesimal da m´etrica de Fisher pode ser expresso por ds2 _{= dµ}t_Σ−1_{dµ +} 1

2tr[(Σ

−1_dΣ)2_], _(2.3)

na qual dµt _{= (dµ}

1, . . . , dµn) ∈ Rn e dΣ ∈ Sn(R) ´e a matriz cujas entradas s˜ao as

derivadas da entradas correspondentes da matriz Σ, [54].

Uma importante propriedade da métrica de Fisher deM é que ela é invariante em rela¸cão a transforma¸cões afins. O resultado abaixo foi dado em [10] sem demonstra¸cão, apresentamos uma prova do mesmo no Apêndice A.

Teorema 2.1. Para todo(c, Q)_{∈ R}n_{× GL}

n(R), em que Gln(R) ´e o espa¸cos das matrizes

invert´ıveis de ordem n, a aplica¸c˜ao

ψ(c,Q): M → M

(µ, Σ) _{7→ (Qµ + c, QΣQ}t_), (2.4)

estabelece uma isometria em_{M. Isto ´e, ψ}(c,Q) ´e um difeomorfismo e, para todo θ∈ M e

U, V,_{∈ T}θM, vale

hU, V iθ =hdψ(c,Q)(θ)· U, dψ(c,Q)(θ)· V iψ(c,Q)(θ). (2.5)

Corol´ario 2.2. A distˆancia de Fisher-Rao entre θ1 = (µ1, Σ1) e θ2 = (µ2, Σ2) em M

satisfaz

dF(θ1, θ2) = dF(ψ(c,Q)(θ1), ψ(c,Q)(θ2)) = dF((Qµ1+ c, QΣ1Qt), (Qµ2+ c, QΣ2Qt)), (2.6)

para todo(c, Q)_{∈ R}n_{× GL} n(R).

Demonstra¸cão. A prova desse corolário segue diretamente da defini¸cão da distância de

Fisher-Rao e da defini¸c˜ao de isometria.

(38)

2.1 e que ser˜ao utilizadas ao longo desse cap´ıtulo. Antes de enunciarmos este resultado recordamos que a raiz quadrada de uma matriz A, denotada por A1/2_ou√_{A, ´e uma matriz}

X tal que XX = A. Quando A ´e uma matriz diagonal, A1/2 _{´e uma matriz diagonal tal}

que cada elemento é a raiz quadrada do elemento correspondente da diagonal de A. Se A é uma matriz simétrica definida positiva então, dada a sua decomposi¸cão ortogonal A = OΛOt_{, em que O é uma matriz ortogonal cujas colunas são os autovetores de A e}

Λ ´e uma matriz diagonal formada pelos autovalores de A, a raiz quadrada de A pode ser dada por A1/2 _{= OΛ}1/2_Ot_.

Corol´ario 2.3. Sejam θ1 = (µ1, Σ1) e θ2 = (µ2, Σ2) e θ0 := (0, In), em que 0 ´e o vetor

nulo de dimensão n e In é a matriz identidade de ordem n, pontos em M. Então:

(i) Dada Σ1 = OΛ1Ot a decomposi¸cão ortogonal da matriz Σ1, sejaΣ −1/2 1 = OΛ −1/2 1 Ot, segue que ψ1 = ψ −Σ−1/2₁ µ1,Σ−1/21 é uma isometria e dF(θ1, θ2) = dF(θ0, ψ1(θ2)), em que ψ1(θ2) = (Σ −1/2 1 (µ2− µ1), Σ −1/2 1 Σ2Σ −1/2 1 ), ver referência [10].

(ii) Dada Σ1 = GGt a fatora¸c˜ao de Cholesky da matriz Σ1 segue que ψ2 = ψ(−G−1_µ 1,G−1)

´e uma isometria e

dF(θ1, θ2) = dF(θ0, ψ2(θ2)),

em que ψ2(θ2) = (G−1(µ2− µ1), G−1Σ2G−t)

(iii) Considerando θ = (µ, Σ) = ψ1(θ2) ou θ = (µ, Σ) = ψ2(θ2) e Σ = OΛOt a

de-composi¸c˜ao ortogonal de Σ, segue que ψ3 = ψ(0,Ot₎◦ ψ_i, i = 1, 2, ´e uma isometria

e

dF(θ1, θ2) = dF(θ0, ψ3(θ)),

onde ψ3(θ) = (Otµ, Λ).

(iv) Considerando θ = (µ, Σ) = ψ1(θ2) ou θ = (µ, Σ) = ψ2(θ2) e P uma matriz de

proje¸cão ortogonal tal que P µ = _kµkej, em que ej é um dos vetores canônicos do

Rn, segue que ψ4 = ψ(0,P )◦ ψi, i = 1, 2, ´e uma isometria e

dF(θ1, θ2) = dF(θ0, ψ4(θ)),

onde ψ4(θ) = (kµkej, P ΣPt).

Demonstra¸cão. Para mostrar o item (i), observemos que Σ−(1/2)₁ é invert´ıvel e pelo Teo-rema 2.1, a aplica¸cão ψ1 = ψ

−Σ(−1/2)₁ µ1,Σ−(1/2)₁

´e uma isometria. Portanto segue do

Corol´ario 2.2 que d(θ1, θ2) = dF(ψ1(θ1), ψ1(θ2)) = dF((0, In), (Σ −(1/2) 1 (µ2− µ1), Σ −(1/2) 1 Σ2Σ −(1/2) 1 ).

(39)

2.1. Distância de Fisher-Rao 39 No item (ii), como G é invert´ıvel, de forma análoga à demonstra¸cão do item (i), a aplica¸cão ψ2 = ψ(−G−1_µ

1,G−1) ´e uma isometria e

dF(θ1, θ2) = dF(ψ2(θ1), ψ2(θ2)) = dF((0, In), (G−1(µ2− µ1), G−1Σ2G−t).

Seja a isometria θ = ψi(θ2) = (µ, Σ), i = 1, 2, e seja Σ = OΛOt. Como O ´e uma

matriz ortogonal, pelo Teorema 2.1, ψ(0,Ot₎ ´e uma isometria e logo, segue do Corol´ario 2.2

que a isometria ψ3 = ψ(0,Ot₎◦ ψ_i, i = 1, 2, ´e tal que

dF(θ1, θ2) =dF(ψ3(θ1), ψ3(θ2))

=dF(ψ(0,Ot₎(ψ_i(θ₀)), ψ_(0,Ot₎(ψ_i(θ₂)))

=dF(ψ(0,Ot₎(θ₀), ψ_(0,Ot₎(θ))

=dF((Ot0, OtO), (Otµ, OtOΛOtO))

=dF((0, In), (Otµ, Λ)),

logo mostramos o item (iii).

Finalmente, par mostrar o item (iv), observemos que, de forma análoga à demon-stra¸cão do item (iii), ψ4 = ψ(0,P )◦ ψi, i = 1, 2, é uma isometria e

dF(θ1, θ2) =dF(ψ4(θ1), ψ4(θ2)) =dF(ψ(0,P )(ψi(θ0)), ψ(0,P )(ψi(θ2))) =dF(ψ(0,P )(θ0), ψ(0,P )(θ)) =dF((P 0, P Pt), (P µ, P ΣPt)) =dF((0, In), (kµkej, P ΣPt)). Observemos que a isometria ψ2´e mais barata de ser calculada computacionalmente,

uma vez que o cálculo do fator Cholesky de uma matriz é mais barato que o cálculo da sua decomposi¸cão ortogonal. Esse fato torna-se mais evidente em dimensões maiores. Na Se¸cão 2.3.2 vamos utilizar os resultados acima para derivar alguns limitantes para a distância de Fisher-Rao.

Exemplo 2.4.Consideremos duas distribui¸c˜oes normais bivariadas pθ1 e pθ2 parametrizadas,

respectivamente, por θ1 = −1 −1 ! , 1.25 0.43 0.43 0.75 !! e θ2 = 2 1 ! , 1.375 −0.65 −0.65 2.125 !! .

(40)

isometrias dadas no Corolário 2.3, a Figura 2.1(b) ilustra os gráficos e as curvas de n´ıvel das distribui¸cões com parâmetros θ0,

ψ1(θ2) = −1 −1 ! , 1.75 −1.88 −1.88 3.92 !! e ψ2(θ2) = 2 1 ! , 1.1 −1.3 −1.3 4.57 !! .

Fazendo θ = ψ1(θ2), temos que

-4 -2 0 2 4 -2 0 2 4 Parâmetros θ1 θ2

(a) Gráficos e curvas de n´ıvel das distribui¸cões normais bivariadas com parâmetros θ1 e θ2.

-4 -2 0 2 4 -2 0 2 4 Parâmetros θ0 ψ1(θ2) ψ2(θ2)

(b) Gráficos e curvas de n´ıvel das distribui¸cões normais bivariadas com parâmetros θ0,

ψ1(θ2) e ψ2(θ2), dF(θ0, ψ1(θ2)) = dF(θ0, ψ2(θ2)). Figura 2.1 ψ3(θ2) = 0.33 −2.94 ! , 5 0 0 0.67 !! e ψ4(θ2) = 2.96 0 ! , 1.25 0.43 0.43 0.75 !! .

As curvas de n´ıvel das distribui¸cões com parâmetros θ0 e ψ3(θ2) e com parâmetros θ0 e

ψ4(θ2), est˜ao ilustradas nas Figuras 2.2(a) e 2.2(b), respectivamente. Notemos que, pelo

Corol´ario 2.3, dF(θ1, θ2) = dF(θ0, ψi(θ2)), para todo i = 1, . . . , 4.

(41)

2.1. Distˆancia de Fisher-Rao 41 Parâmetros θ0 ψ3(θ2) -4 -2 0 2 4 6 -4 -2 0 2

(a) Curvas de n´ıvel das distribui¸c˜oes normais bivariadas com parˆametros θ0 e ψ3(θ2).

Parâmetros θ0 ψ4(θ2) -4 -2 0 2 4 6 -4 -2 0 2

(b) Curvas de n´ıvel das distribui¸c˜oes normais bivariadas com parˆametros θ0e ψ4(θ2).

Figura 2.2

γ(t) = (µ(t), Σ(t)). A curva γ é uma curva geodésica de M se suas fun¸cões coorde-nadas satisfazem as seguintes equa¸cões [54]

         d2_µ dt2 − dΣ dt Σ−1 dµ dt = 0 d2_Σ dt2 + dµ dt dµ dt t − dΣ dt Σ−1 dΣ dt = 0 . (2.7)

Essas equa¸c˜oes podem ser parcialmente integr´aveis como [25]      dµ dt = Σx dΣ dt = Σ(B− x t µ), (2.8)

em que (x, B)_{∈ T}θM s˜ao as constantes de integra¸c˜ao.

Consideremos a mudan¸ca natural de parˆametros dada pela aplica¸c˜ao ϕ, definida em _{M, dada por}

ϕ(µ(t), Σ(t)) = (δ(t), ∆(t)) = (Σ(t)−1µ(t), Σ(t)−1). O sistema de equa¸c˜oes diferenciais (2.8) torna-se

     d∆ dt =−B∆ + xδ t dδ dt =−Bδ + (1 + δ∆ −1 δ)x . (2.9)

(42)

Suponhamos que as equa¸cões acima estão sujeitas às seguintes condi¸cões iniciais      (δ(0), ∆(0)) = (δ0, ∆0) dδ dt(0), d∆ dt (0) = (x0,−B0), (2.10)

ou seja, a velocidade inicial da curva geod´esica no ponto (δ0, ∆0) ∈ M ´e (x0,−B0).

Observemos que as condi¸c˜oes (2.10) podem ser tomadas como      (δ(0), ∆(0)) = (0, In) dδ dt(0), d∆ dt (0) = (x,_−B). (2.11)

De fato, seja ∆0 = GGt a decomposi¸c˜ao de Cholesky da matriz ∆0 e seja

(x, B) = (G−1x0, G−1B0G−t).

Seja (¯δ(t), ¯∆(t)) a curva geod´esica satisfazendo (2.11) e consideremos a isometria ψ = ψ(δ0,G), ent˜ao (δ(t), ∆(t)) = ψ(¯δ(t), ¯∆(t)) = (G¯δ(t) + δ0, G ¯∆(t)G

t_{) ´e a curva geod´esica}

que satisfaz as condi¸c˜oes iniciais (2.10).

Eriksen [25] em 1986 e Calvo e Oller [13] em 1990 resolveram, independentemente, o problema de valor inicial dado pelas equa¸cões (2.9) e (2.11). Eriksen descreveu a curva geodésica em termos de uma aplica¸cão exponencial, porém ele não derivou uma fórmula expl´ıcita para tal geodésica. Por outro lado, Calvo e Oller resolveram um sistema de equa¸cões diferencial muito mais geral e, dessa forma, encontraram uma fórmula expl´ıcita para a curva geodésica. Em [34] os autores conseguiram calcular a curva geodésica através do resultado obtido por Eriksen e mostraram que a curva era a mesma dada em [13]. Essa fórmula expl´ıcita é dada por

           δ(t) =_{− B(cosh(tG) − I}n)(G−)2x+ senh(tG)G−x ∆(t) =In+ 1 2(cosh(tG)− In) + 1 2B(cosh(tG)− In)(G − )2_B −1₂senh(tG)G−B ₋1 2B senh(tG)G − , (2.12)

em que G2 _{= B}2_{+ 2xx}t _{e G}−_{´e a matriz inversa generalizada da matriz quadrada G, isto}

´e, GG−_{G = G.}

Como uma curva geodésica tem velocidade constante em todo ponto, dado (x, B)_∈ TθM, a distância de Fisher-Rao entre (0, In) e (δ(1), ∆(1)) é dada por

Z 1

0 pk(δ

0_{(t), ∆}0_(t))_{k dt =}r 1

2tr(B

(43)

2.1. Distˆancia de Fisher-Rao 43 Mesmo com a solu¸c˜ao dada em (2.12), dados dois pontos θ1 = (µ1, Σ1) e θ2 =

(µ2, Σ2) em M, em geral, ainda não se tem uma fórmula fechada para a distância de

Fisher-Rao entre θ1 e θ2 e nem uma formula expl´ıcita para a curva geod´esica ligando

esses dois pontos. Para isso, é necessário resolver o problema de valor de contorno dado pelas equa¸cões (2.7) e por

((µ(0), Σ(0)) = (µ1, Σ1)

(µ(1), Σ(1)) = (µ2, Σ2)

. (2.13)

Uma questão a ser abordada é se essa geodésica existe.

Defini¸cão 2.5. Uma variedade Riemanniana M é completa quando para todo p _{∈ M,} a aplica¸cão exponencial, exp_p (a curva geodésica partindo de p no instante t = 0), está definida para todo v_{∈ T}pM . Isto é, se as geodésicas γ(t) que partem de p estão definidas

para todos os valores do parˆametro t_{∈ R.}

Vimos que todo θ_{∈ M pode ser levado isometricamente para o ponto θ}0logo, pela

solu¸cão dada nas equa¸cões (2.12), a curva γ(t) está definida para todo t∈ R e portanto segue queM é completa. Dessa forma, pelo Teorema de Hopf e Rinow [15, Cap. 7], para todo ponto θ1 e θ2 pertencente a M, existe uma curva geodésica γ que liga esses pontos

e `(γ) = dF(θ1, θ2).

A seguir, descreveremos a distˆancia de Fisher-Rao e as curvas geod´esicas em algu-mas subvariedades de _M.

2.1.1 A subvariedade

_M

_Σ₀

onde

Σ

0

´

e constante

Seja_MΣ0 ={θ ∈ M, Σ = Σ0 ∈ Pn(R) constante} a subvariedade de dimens˜ao n

composta pelas distribui¸cões normais multivariadas com a mesma matriz de covariância. A métrica de Fisher deMΣ0 é

ds2 _{= dµ}t_Σ−1 0 dµ,

a qual, a menos da matriz constante Σ0 ´e essencialmente a m´etrica Euclidiana [5]. A

distˆancia de Fisher-Rao entre θ1 = (µ1, Σ0) e θ2 = (µ2, Σ0) ´e igual a

dΣ0(θ1, θ2) =

q

(µ1 − µ2)tΣ−10 (µ1− µ2). (2.14)

A distância acima é igual a distância dada por Mahalanobis [40] (chamada de distância de Mahalanobis), um dos pioneiros no estudo de medidas de similaridade entre dados que tinham algum tipo de correla¸cão.

Uma curva geod´esica tal que γ(0) = θ1 e γ(1) = θ2 em MΣ0 ´e dada por

(44)

Observemos que, assim como no caso univariado, a subvariedade _MΣ0 n˜ao ´e totalmente

geod´esica [54].

Exemplo 2.6. Sejam duas distribui¸c˜oes bivariadas com parˆametros θ1 = ((−1, 0)t, Σ0) e

θ2 = ((6, 3)t, Σ0), em que Σ0 = 1.1 0.9 0.9 1.1 ! .

A Figura 2.3 ilustra a curva geod´esica em _MΣ0 conectando essas distribui¸c˜oes: as

cur-vas em vermelho s˜ao as curcur-vas de n´ıveis das distribui¸c˜oes pθ1 e pθ2, as curvas em azul

representam algumas curvas de n´ıvel das distribui¸cões por onde a curva geodésica passa e, o segmento em cinza, representa a curva geodésica no plano µ1× µ2. A distância de

Fisher-Rao em MΣ0 entre os pontos θ1 e θ2 ´e dΣ0(θ1, θ2) = 8.06226.

-4 -2 0 2 4 6 8 10

-2 0 2 4

Figura 2.3: Curva geod´esica em_MΣ0(segmento cinza) ligando duas distribui¸c˜oes normais

bivariadas com parˆametros θ1 = ((−1, 0)t, Σ0) e θ2 = ((6, 3)t, Σ0).

2.1.2 A subvariedade

_M

µµµ0

onde

µ

0

´

e constante

Seja _Mµ0 ={θ ∈ M; µ = µ0 ∈ R

n _constante_{} ⊂ M a subvariedade de dimens˜ao} n(n+1)

2 composta por distribui¸cões com o mesmo vetor de médias µ0. A métrica de Fisher

nessa subvariedade ´e dada por

ds2 ₌ 1

2tr[(Σ

−1

dΣ)2_].

Essa métrica foi estudada por vários autores como, por exemplo, Siegel [53] através de matrizes Hermitianas e por Atkinson-Mitchell [5] e Burbea [10] através das subvar-iedades de _M.

A distˆancia entre θ1 = (µ0, Σ1) e θ2 = (µ0, Σ2) ´e

d2 µ0(θ1, θ2) = 1 2 n X i=1 [log(λi)]2, (2.15)

(45)

2.1. Distˆancia de Fisher-Rao 45 em que 0 < λ1 ≤ λ2 ≤ · · · ≤ λn s˜ao os autovalores de Σ−11 Σ2.

Uma curva geod´esica γ(t) = (µ(t), Σ(t)) em_Mµ0 ligando dois pontos θ1 = (µ0, Σ1)

e θ2 = (µ0, Σ2) com γ(0) = θ1 e γ(1) = θ2 ´e dada por [43]

γ(t) = (µ0, Σ 1/2 1 exp(t log(Σ −1/2 1 Σ2Σ −1/2 1 ))Σ 1/2 1 ).

Novamente, assim como no caso univariado, a subvariedade _Mµ0 ´e uma

subvar-iedade totalmente geodésica [54]. Ou seja, toda curva geodésica de _Mµ0 é também uma

geod´esica de _{M. Assim, d}µ0(θ1, θ2) = dF(θ1, θ2) para todo θ1, θ2 ∈ Mµ0.

Exemplo 2.7. Sejam duas distribui¸c˜oes bivariadas com parˆametros θ1 = ((0, 0)t, Σ1) e

θ2 = ((0, 0)t, Σ2), em que Σ1 = 1 0 0 8 ! e Σ2 = 8 0 0 1 ! .

Na Figura 2.4, as curvas em vermelho ilustram as curvas de n´ıveis das distribui¸c˜oes pθ1 e

pθ2 e as curvas em azul representam algumas curvas de n´ıvel das distribui¸c˜oes por onde a

curva geod´esica passa. Al´em disso dF(θ1, θ2) = 2.07944.

-4 -2 0 2 4 -4 -2 0 2 4

Figura 2.4: Curva geod´esica em_Mµ0 ligando duas distribui¸c˜oes normais bivariadas com