UNIVERSIDADE ESTADUAL DE CAMPINAS
Instituto de Matem´
atica, Estat´ıstica e
Computa¸c˜
ao Cient´ıfica
JULIANNA PINELE SANTOS PORTO
Geometria do Modelo Estat´ıstico das
Distribui¸
c˜
oes Normais Multivariadas
Campinas
2017
Geometria do Modelo Estat´ıstico das Distribui¸
c˜
oes
Normais Multivariadas
Tese apresentada ao Instituto de
Matem´atica, Estat´ıstica e Computa¸c˜ao Cient´ıfica da Universidade Estadual de Campinas como parte dos requisitos exigidos para a obten¸c˜ao do t´ıtulo de Doutora em Matem´atica Aplicada.
Orientador: Jo˜ao Eloir Strapasson
Coorientadora: Sueli Irene Rodrigues Costa
Este exemplar corresponde `a vers˜ao da Tese defendida pela aluna Julianna Pinele Santos Porto e orientada pelo Prof. Dr. Jo˜ao Eloir Strapasson.
Campinas
2017
Agência(s) de fomento e nº(s) de processo(s): CNPq, 140364/2015-3; CAPES
Ficha catalográfica Universidade Estadual de Campinas
Biblioteca do Instituto de Matemática, Estatística e Computação Científica Ana Regina Machado - CRB 8/5467
Porto, Julianna Pinele Santos,
P838g PorGeometria do modelo estatístico das distribuições normais multivariadas / Julianna Pinele Santos Porto. – Campinas, SP : [s.n.], 2017.
PorOrientador: João Eloir Strapasson. PorCoorientador: Sueli Irene Rodrigues Costa.
PorTese (doutorado) – Universidade Estadual de Campinas, Instituto de Matemática, Estatística e Computação Científica.
Por1. Geometria da informação. 2. Matriz de informação de Fisher. 3. Distância de Rao. 4. Distribuição guaussiana. 5. Algoritmo k-means. I. Strapasson, João Eloir,1979-. II. Costa, Sueli Irene Rodrigues,1949-. III. Universidade Estadual de Campinas. Instituto de Matemática, Estatística e Computação Científica. IV. Título.
Informações para Biblioteca Digital
Título em outro idioma: Geometry of the statistical model of the multivariate normal
distributions
Palavras-chave em inglês:
Information geometry Fisher information matrix Rao distance
Gaussian distribution k-means algorithm
Área de concentração: Matemática Aplicada Titulação: Doutora em Matemática Aplicada Banca examinadora:
João Eloir Strapasson [Orientador] Pedro Jose Catuogno
Leonardo Tomazeli Duarte Rui Facundo Vigelis Marcelo Muniz Silva Alves
Data de defesa: 03-08-2017
Programa de Pós-Graduação: Matemática Aplicada
pela banca examinadora composta pelos Profs. Drs.
Prof(a). Dr(a). JOÃO ELOIR STRAPASSON
Prof(a). Dr(a). PEDRO JOSE CATUOGNO
Prof(a). Dr(a). LEONARDO TOMAZELI DUARTE
Prof(a). Dr(a). RUI FACUNDO VIGELIS
Prof(a). Dr(a). MARCELO MUNIZ SILVA ALVES
`
Agrade¸co `a minha m˜ae por todo apoio que sempre me deu nessa longa caminhada at´e aqui, por ser a minha inspira¸c˜ao sendo a mulher lutadora que ´e, fornecendo a melhor educa¸c˜ao poss´ıvel aos seus filhos e os apoiando em suas decis˜oes. Agrade¸co ao meu irm˜ao Sandro, por ter me apresentado `a matem´atica e por sempre estar ao meu lado.
Agrade¸co `a toda `a minha fam´ılia, por estarem sempre presentes, me dando for¸ca para continuar, por torcerem por mim e por me receberem de bra¸cos abertos, compartil-hando comigo todas as gl´orias e dificuldades.
Agrade¸co ao meu orientador Jo˜ao Strapasson o qual sem ele n˜ao poderia ter feito esse trabalho. Agrade¸co pelo apoio, for¸ca, paciˆencia e dedica¸c˜ao durante esses seis anos de trabalho (mestrado e doutorado).
`
A minha coorientadora Sueli Costa, por todos os trabalhos que realizamos juntas, e pela for¸ca e incentivo que me deu nos momentos dif´ıceis.
Agrade¸co ao Professor Aur´elio de Oliveira por toda a aten¸c˜ao, paciˆencia e por ser uma pessoa com quem eu sempre pude contar durante esses meus seis anos na Unicamp. Agrade¸co ao Jo˜ao, por ser meu companheiro de todas as horas nesses quatro anos de doutorado, por ter compartilhando comigo os momentos de ˆexito e de dificuldades, por toda a paciˆencia, persistˆencia, cuidado e por todo carinho.
Agrade¸co aos amigos que conquistei aqui em Campinas, muitos deles hoje s˜ao minha fam´ılia tamb´em. Com tanto tempo fora de casa, acabamos construindo outras fam´ılias, compostas por pessoas que conquistam nosso cora¸c˜ao e que a gente sabe que pode contar sempre. Agrade¸co pelo apoio nos momento de cansa¸co, pelas comemora¸c˜oes nos momentos de alegria e aos nossos “reggaes” no Esta¸c˜ao Bar˜ao que nos permitiram aproveitar um pouco todos esses momentos.
Ao pessoal do Laborat´orio MDC, pela companhia e pelos diversos momentos que compartilhamos, ´e importante fazer parte de um grupo.
N´ıvel Superior) e do CNPQ (Conselho Nacional de Desenvolvimento Cient´ıfico e Tec-nol´ogico), sem o mesmo este trabalho n˜ao seria poss´ıvel.
Resumo
Na ´area de Geometria da Informa¸c˜ao, ferramentas de geometria diferencial s˜ao utilizadas no estudo de modelos estat´ısticos. Num trabalho pioneiro em 1945, C. Rao in-troduziu uma m´etrica Riemanniana, dada pela matriz de informa¸c˜ao de Fisher, no espa¸co composto por distribui¸c˜oes de probabilidade parametrizadas. Atrav´es dessa m´etrica, a distˆancia entre as distribui¸c˜oes (chamada de distˆancia de Fisher-Rao), geod´esicas, curva-turas e outras propriedades do espa¸co s˜ao analisadas.
Abordamos neste trabalho a distˆancia de Fisher-Rao na variedade composta por distribui¸c˜oes normais multivariadas. Descrevemos a distˆancia de Fisher-Rao e as cur-vas geod´esicas em algumas subvariedades e apresentamos alguns limitantes para esta distˆancia no caso geral. Al´em disso, utilizamos a distˆancia de Fisher-Rao como medida de dissimilaridade em dois algoritmos de agrupamento de dados (algoritmos k-m´edias e agrupamento hier´arquico). Por fim, apresentamos algumas aplica¸c˜oes desses algoritmos de agrupamentos na ´area de segmenta¸c˜ao de imagens.
Palavras-chave: Geometria da Informa¸c˜ao, m´etrica de Fisher, distˆancia de Fisher-Rao,
dis-tribui¸c˜ao normal multivariada, algoritmo k-m´edias, algoritmo de agrupamento hier´arquico,
In the Information Geometry area, geometry differential tools are used to study statistical models. In a pioneer work in 1945, C. Rao introduced a Riemannian metric given by the Fisher information matrix, on the space composed by parametrized proba-bility distributions. Through this metric, a distance between the distributions (called the Fisher-Rao distance), geodesics, curvatures and other space properties are analyzed.
In this work, we approach the Fisher-Rao distance in the multivariate normal distributions manifold. We describe the Fisher-Rao distance and the geodesic curves in some submanifolds and we present some bounds for the Fisher-Rao distance in general case. Furthermore, we use the Fisher-Rao distance as a dissimilarity measure in two clustering algorithms (the k-means and the hierarchical clustering algorithms). Some applications of these clustering algorithms in the image segmentation are presented.
Palavras-chave: Information Geometry, Fisher metric, Fisher-Rao distance, multivariate
nor-mal distribution, k-means algorithm, hierarchical clustering algorithm, Kullback-Leibler diver-gence.
Sum´ario
Introdu¸c˜ao 13
1 Preliminares em Geometria da Informa¸c˜ao 16
1.1 Modelo estat´ıstico . . . 16
1.2 M´etrica de Fisher . . . 22
1.3 Distˆancia de Fisher-Rao . . . 27
1.4 Curvaturas . . . 31
1.5 Divergˆencia de Kullback-Leibler . . . 33
1.5.1 Rela¸c˜ao com a Distˆancia de Fisher-Rao . . . 34
1.5.2 Rela¸c˜ao com a Divergˆencia de Bregman . . . 35
2 Distribui¸c˜ao Normal Multivariada 36 2.1 Distˆancia de Fisher-Rao . . . 36
2.1.1 A subvariedade MΣ0 onde Σ0 ´e constante . . . 43
2.1.2 A subvariedade Mµµµ0 onde µµµ0 ´e constante . . . 44
2.1.3 A subvariedade MD onde Σ ´e diagonal . . . 46
2.1.4 A subvariedade MDµµµ em que Σ ´e diagonal e µµµ ´e um autovetor de Σ 47 2.1.5 Produto de Subvariedades totalmente geod´esica . . . 51
2.2 Algoritmos Num´ericos . . . 52
2.2.1 Algoritmo Geodesic shooting . . . 53
2.2.2 Sistema de Equa¸c˜oes . . . 54
2.3 Limitantes para a distˆancia de Fisher-Rao . . . 69
2.3.1 Limitante Inferior . . . 69
2.3.2 Limitantes Superiores . . . 69
2.3.3 Compara¸c˜ao dos Limitantes . . . 75
3.1.1 Algoritmo Maximiza¸c˜ao de Expectativa . . . 84
3.1.2 Algoritmo k-m´edias . . . 85
3.1.3 Agrupamento Hier´arquico . . . 86
3.2 Centroides no Modelos das Distribui¸c˜oes Normais Multivariadas . . . 87
3.2.1 Centroides de Bregman . . . 87
3.2.2 Centroide de Galperin . . . 88
3.3 Algoritmos de Simplifica¸c˜ao de Misturas Gaussianas . . . 91
3.3.1 Algoritmo k-m´edias Fisher-Rao Diagonal . . . 91
3.3.2 Agrupamentos Hier´arquico . . . 92
3.4 Aplica¸c˜ao em Segmenta¸c˜ao de Imagens . . . 93
4 Conclus˜oes e perspectivas 102
Bibliografia 103
A Prova do Teorema 2.1 109
13
Introdu¸c˜ao
M´etricas e distˆancias entre distribui¸c˜oes de probabilidade tem um importante papel em diversas ´areas e aplica¸c˜oes. Consideremos as distribui¸c˜oes normais univariadas com m´edia µ e desvio padr˜ao σ,
p(x; µ, σ) = √1 2πσ exp − 1 2 x− µ σ 2! .
A Figura 1 ilustra uma compara¸c˜ao entre as distribui¸c˜oes normais: `a esquerda est˜ao repre-sentadas distribui¸c˜oes normais com parˆametros A, B, C e D e `a direita os parˆametros est˜ao representados no plano m´edia×desvio padr˜ao. Fixando o valor da m´edia e aumentando o valor do desvio padr˜ao ´e intuitivo notar que, num mesmo intervalo, a dissimilaridade entre as distribui¸c˜oes com parˆametros C e D ´e menor que a dissimilaridade entre as dis-tribui¸c˜oes parametrizadas por A e B. Logo, observando as posi¸c˜oes dos parˆametros A, B, C e D no plano m´edia×desvio padr˜ao, conclu´ımos que a distˆancia Euclidiana n˜ao ´e uma boa medida para calcular a distˆancia entre esses parˆametros [18].
Figura 1: Distribui¸c˜oes normais univariadas e seus parˆametros no plano µ× σ (figura retirada de [18]).
Em busca de uma medida adequada para determinar a distˆancia entre duas popu-la¸c˜oes, C. R. Rao [49] em 1945 introduziu m´etodos de geometria diferencial para modelar um espa¸co composto por distribui¸c˜oes de probabilidade (modelos estat´ısticos) utilizando a matriz de informa¸c˜ao dada por R. Fisher [26] em 1921. Esse importante trabalho foi o precursor da ´area conhecida hoje como Geometria da Informa¸c˜ao. Embora autores como Mahalanobis [40] e Bhattacharyya [7] j´a tivessem feito rela¸c˜oes entre geometria e estat´ıstica, foi Rao quem estudou conceitos de geometria diferencial e fez conex˜oes com a matriz de informa¸c˜ao de Fisher, ver referˆencia [46]. Ele introduziu os conceitos de m´etrica de Fisher (uma m´etrica Riemanniana) e de distˆancia geod´esica entre duas distribui¸c˜oes de probabilidade, chamada nesse trabalho de distˆancia de Fisher-Rao.
Em [49], Rao calculou a distˆancia de Fisher-Rao entre duas distribui¸c˜oes normais univariadas. Esse trabalho motivou diversos autores a utilizarem ferramentas geom´etricas no estudo de modelos estat´ıstico, assim como estimulou o estudo de outras medidas de dissimilaridade entre distribui¸c˜oes de probabilidade e o interesse em determinar f´ormulas fechadas para a express˜ao da distˆancias entre as mesmas. Efron [24] em 1975, introduziu a no¸c˜ao de curvatura nos modelos compostos por distribui¸c˜oes com apenas um parˆametro. Este trabalho foi seguido por contribui¸c˜oes significantes de Dawid [22] e Reeds [50]. Amari [2, 3] foi quem unificou a teoria introduzindo outros conceitos de conex˜oes em modelos de distribui¸c˜oes de probabilidade. Num trabalho independentemente, Chentsov [17] calculou a distˆancia de Fisher-Rao entre algumas distribui¸c˜oes de probabilidade e mostrou que a m´etrica de Fisher ´e a ´unica m´etrica Riemanniana invariante no espa¸co composto por distribui¸c˜oes de probabilidade.
No c´alculo da distˆancia de Fisher-Rao entre distribui¸c˜oes em geral destacam-se os trabalhos de Atkinson e Mitchell [5], no qual os autores calcularam a distˆancia de Fisher-Rao entre distribui¸c˜oes com apenas um parˆametro, e de Burbea [10], onde o autor fez um estudo do modelo das distribui¸c˜oes multinomiais. Al´em disso, eles tamb´em apresentaram alguns resultados sobre a distˆancia de Fisher-Rao no espa¸co composto por distribui¸c˜oes normais multivariadas em casos particulares. Sato et. al. [51] em 1979 descreveram algu-mas propriedades geom´etricas do espa¸co composto por distribui¸c˜oes normais bivariadas, um trabalho que foi generalizado por Skovgaard [54] em 1984. Ademais, Eriksen [25] e Calvo e Oller [13] calcularam express˜oes para a curva geod´esica no espa¸co das distribui¸c˜oes normais multivariadas. Hoje em dia, ainda n˜ao ´e conhecida uma f´ormula fechada para a distˆancia de Fisher-Rao no modelo das distribui¸c˜oes normais multivariadas no caso geral. Distribui¸c˜oes de probabilidade s˜ao elementos fundamentais em ´areas como es-tat´ıstica, processamento estoc´asticos, aprendizado de m´aquina e teoria da informa¸c˜ao. Rao [49] e Skovgaard [54] utilizaram a distˆancia de Fisher-Rao em problemas de inferˆencia estat´ıstica. A distˆancia de Fisher-Rao tamb´em foi utilizada no estudo de tensores de di-fus˜ao de imagens de ressonˆancia magn´etica em [31,37,43]. Aplica¸c˜oes da m´etrica de Fisher no espa¸co das distribui¸c˜oes normais univariadas nas ´areas de morfologia e deforma¸c˜ao de
Introdu¸c˜ao 15 imagens s˜ao apresentadas, respectivamente, em [41] e [4]. Al´em disso, em [52] a distˆancia de Fisher-Rao foi utilizada para simplificar misturas Gaussianas atrav´es do algoritmo de agrupamento k-m´edias. Uma aplica¸c˜ao da distˆancia de Fisher-Rao entre distribui¸c˜oes normais multivariadas na ´area de sistemas de radares ´e apresentada em [47].
Neste trabalho, fazemos um estudo da distˆancia de Fisher-Rao no modelo es-tat´ıstico composto por distribui¸c˜oes normais multivariadas. Resumimos alguns resultados j´a conhecidos na literatura exibindo a distˆancia de Fisher-Rao em alguns subvariedades deste modelo estat´ıstico. Encontramos duas subvariedades totalmente geod´esicas e exibi-mos uma f´ormula fechada para a distˆancia de Fisher-Rao nessas subvariedades. Apresen-tamos tamb´em o c´alculo da distˆancia entre certos pares de pontos atrav´es da resolu¸c˜ao de sistemas. Utilizando uma isometria neste espa¸co, derivamos alguns limitantes superiores para a distˆancia de Fisher-Rao no caso geral. Atrav´es de algumas simula¸c˜oes, mostramos que, em alguns casos, os limitantes apresentam boas aproxima¸c˜oes para distˆancia. Al´em disso, aplicamos a distˆancia de Fisher-Rao ao problema de simplifica¸c˜ao de misturas gaus-sianas atrav´es de algoritmos de agrupamento. Experimentos na ´area de segmenta¸c˜ao de imagens s˜ao apresentados.
A organiza¸c˜ao do trabalho ´e descrita abaixo.
No Cap´ıtulo 1, apresentamos alguns conceitos de Geometria da Informa¸c˜ao e in-troduzimos a m´etrica de Fisher e a distˆancia de Fisher-Rao. Relembramos a defini¸c˜ao de curvatura numa variedade Riemanniana e mostramos algumas rela¸c˜oes entre a distˆancia de Fisher e a divergˆencia de Kullback-Leibler, uma outra medida de dissimilaridade entre distribui¸c˜oes.
Apresentamos, no Cap´ıtulo 2, uma an´alise da distˆancia de Fisher-Rao no espa¸co composto por distribui¸c˜oes normais multivariadas. Descrevemos uma isometria neste espa¸co e mostramos f´ormulas fechadas para a distˆancia de Fisher-Rao em alguns casos par-ticulares. Derivamos duas subvariedades totalmente geod´esicas e calculamos a distˆancia de Fisher-Rao para certos pares de pontos. Apresentamos tamb´em alguns limitantes para a distˆancia de Fisher-Rao e fazemos algumas compara¸c˜oes entre os mesmos.
O problema de simplifica¸c˜ao de misturas Gaussianas ´e apresentado no Cap´ıtulo 3. Descrevemos os algoritmos de agrupamento de dados k-m´edias e hier´arquico e apresen-tamos algumas defini¸c˜oes de centroide no modelo das distribui¸c˜oes normais multivari-adas. Fazemos algumas adapta¸c˜oes dos algoritmos de agrupamentos apresentados para serem utilizados no problema de simplifica¸c˜ao de misturas Gaussianas com matrizes de covariˆancia diagonais atrav´es do uso da distˆancia de Fisher-Rao. Al´em disso, mostramos tamb´em uma aplica¸c˜ao na ´area de segmenta¸c˜ao de imagens.
No ´ultimo cap´ıtulo apresentamos algumas considera¸c˜oes finais e perspectivas de futuros trabalhos.
Cap´ıtulo
1
Preliminares em Geometria da
Informa¸
c˜
ao
Neste cap´ıtulo, apresentamos alguns conceitos e resultados preliminares em Geome-tria da Informa¸c˜ao. O objetivo ´e introduzir as principais ferramentas que ser˜ao utilizadas ao longo do texto. As principais referˆencias sobre Geometria da Informa¸c˜ao nas quais foram baseadas este cap´ıtulo foram [2], [3] e [11]. Assumimos tamb´em conhecimento pr´evio dos resultados b´asicos em geometria Riemanniana que podem ser encontrados em [15] e [32].
1.1
Modelo estat´ıstico
Seja Ω o conjunto de todos os resultados poss´ıveis de um experimento aleat´orio, chamado de espa¸co amostral. Uma σ-´algebra F sobre o conjunto Ω ´e uma cole¸c˜ao de sub-conjuntos de Ω a qual ´e fechada sobre uni˜oes, interse¸c˜oes enumer´aveis e complementa¸c˜oes de subconjuntos de F. Os elementos de F s˜ao chamados de eventos e dizemos que o par (Ω,F) ´e um espa¸co mensur´avel.
Defini¸c˜ao 1.1. Uma fun¸c˜ao P : F → R ´e chamada uma medida probabilidade sobre F quando
(i) 0≤ P (E) ≤ 1, para todo E ∈ F; (ii) P (∅) = 0;
(iii) Se E1, E2, . . . s˜ao conjuntos disjuntos dois a dois no espa¸co mensur´avel (Ω,F) ent˜ao
P [ i≥1 Ei ! =X i≥1 P (Ei).
1.1. Modelo estat´ıstico 17 Um espa¸co de probabilidade ´e um espa¸co mensur´avel (Ω,F, P ) com medida de probabilidade P .
Uma vari´avel aleat´oria real X : Ω→ R sobre um espa¸co de probabilidade ´e uma fun¸c˜ao real, definida no espa¸co amostral Ω, tal que {ω ∈ Ω; X(ω) ≤ x} ∈ F para todo x ∈ R. Uma vari´avel aleat´oria de dimens˜ao n, X = (X1, . . . , Xn), ´e um vetor
cujas componentes Xi : Ω → R, i = 1, . . . , n, s˜ao vari´aveis aleat´orias reais. Seja X um
subconjunto de Rn. Dizemos que X : Ω → X ´e uma vari´avel aleat´oria discreta quando
X ´e um conjunto enumer´avel de pontos. A fun¸c˜ao de massa de probabilidade de X (uma distribui¸c˜ao de probabilidade discreta) ´e uma fun¸c˜ao p :X → R dada por
p(x) = P (X = x) = P \ x∈X {ω ∈ Ω; Xi(ω) = xi} ! a qual satisfaz X x∈X p(x) = 1.
QuandoX = RnouX ´e uma uni˜ao de bolas em Rndizemos que X : Ω→ X ´e uma vari´avel
aleat´oria cont´ınua. A fun¸c˜ao de densidade de probabilidade de X (uma distribui¸c˜ao de probabilidade cont´ınua) ´e uma fun¸c˜ao p :X → R satisfazendo
p(x)≥ 0, ∀ x ∈ X e Z
X
p(x)dx = 1, em que R
X ´e a integral com respeito `a medida de Lebesgue sobre X . Dado um conjunto
abertoD ⊂ X , a rela¸c˜ao entre a medida de probabilidade P e a fun¸c˜ao de densidade p(x) ´e dada por
P (X ∈ D) = Z
D
p(x)dx.
Um modelo estat´ıstico S ´e uma fam´ılia de distribui¸c˜oes de probabilidade sobre X . Neste trabalho estamos interessados em uma fam´ılia de fun¸c˜oes de distribui¸c˜oes de probabilidade que depende de v´arios parˆametros e pode ser vista como uma variedade. Defini¸c˜ao 1.2. Seja
S = {pθ(x) = p(x; θ); θ = (θ1, θ2, . . . , θn)∈ Θ},
uma fam´ılia de distribui¸c˜oes de probabilidade sobreX . Suponha que cada elemento pθ de
S seja parametrizado por n vari´aveis reais θ = (θ1, θ2, . . . , θn)∈ Θ, em que Θ, chamado
de espa¸co dos parˆametros, ´e um subconjunto aberto do Rn (ou de um espa¸co isomorfo ao
Rn). O conjunto S ´e um subconjunto do espa¸co das fun¸c˜oes P(X ) = f : X → R; f(x) ≥ 0 ∀ x ∈ X e Z X f (x)dx = 1 .
Suponhamos que
(i) a aplica¸c˜ao ϕ : Θ → S definida por ϕ(θ) = pθ ´e injetiva e suficientemente suave
(isto ´e, diferenci´avel quantas vezes forem necess´arias); (ii) o conjunto ∂pθ ∂θ1 , . . . , ∂pθ ∂θn
´e linearmente independente sobre X .
Dizemos que S ´e um modelo param´etrico de dimens˜ao n.
As condi¸c˜oes (i) e (ii) da defini¸c˜ao acima s˜ao chamadas condi¸c˜oes de regularidade do modelo estat´ıstico S.
Uma aplica¸c˜ao bastante utilizada em teoria estat´ıstica ´e a fun¸c˜ao de verossimil-han¸ca L : S → F(X , R), em que F(X , R) = {f; f : X → R ´e diferenci´avel}, definida por
L(pθ(x)) = log p(x; θ).
As derivadas parciais da aplica¸c˜ao L, ∂L(pθ(x))
∂θj
= ∂ log p(x; θ) ∂θj
,
para todo 1≤ j ≤ n, s˜ao chamadas fun¸c˜oes score e descrevem como a informa¸c˜ao contida em pθ varia na dire¸c˜ao de θj.
Proposi¸c˜ao 1.3. [11] A segunda condi¸c˜ao de regularidade de um modelo estat´ıstico S = {pθ; θ ∈ Θ} vale se, e somente se, pra todo θ ∈ Θ o conjunto
∂L(pθ(x)) ∂θ1 , . . . ,∂L(pθ(x)) ∂θn ´ e linearmente independente.
Demonstra¸c˜ao. Basta observar que ∂L(pθ(x)) ∂θj = ∂ log p(x; θ) ∂θj = 1 p(x; θ) ∂p(x; θ) ∂θj . Para dar continuidade `a teoria, vamos assumir que as ordens de integra¸c˜ao e de diferencia¸c˜ao podem ser livremente trocadas, assim poderemos fazer contas do tipo
Z X ∂p(x; θ) ∂θi dx = ∂ ∂θi Z X p(x; θ)dx = ∂ ∂θi (1) = 0.
1.1. Modelo estat´ıstico 19 O modelo estat´ıstico S = {pθ; θ ∈ Θ} ´e a imagem de uma aplica¸c˜ao injetiva ϕ,
dada por ϕ(θ) = pθ, a qual pode ser vista como um sistema de coordenadas (Θ, ϕ) paraS.
Ou seja, a pr´opria parametriza¸c˜ao do modelo estat´ıstico S ´e um sistema de coordenadas global (o que ocorre com a maioria de modelos param´etricos). A parametriza¸c˜ao de um modelo estat´ıstico n˜ao ´e ´unica. Seja ψ um difeomorfismo de classe C∞ de Θ em
ψ(Θ) ⊂ Rn, a aplica¸c˜ao ϕ ◦ ψ−1 : ψ(Θ)
→ S, ´e um outro sistema de coordenadas paraS, ver Figura 1.1. Ent˜ao, tomando ξ = ψ(θ) como parˆametro em vez de θ, obtemos S = {pψ−1(ξ); ξ ∈ ψ(Θ)}. Se tomarmos parametriza¸c˜oes que s˜ao difeomorfismos C∞ent˜ao
podemos considerar S uma variedade diferenci´avel C∞, a qual chamamos de variedade
estat´ıstica. S pθ Θ ψ(Θ) θ ϕ ψ ϕ◦ ψ−1 ψ(θ)
Figura 1.1: Sistemas de coordenadas.
Dada uma parametriza¸c˜ao do modelo estat´ıstico S, ϕ(θ) = pθ, o conjunto
∂ ∂θ1 θ , . . . , ∂ ∂θn θ
´e uma base do espa¸co tangente de S em pθ.
Observamos que, para facilitar a nota¸c˜ao, muitas vezes ao longo do texto vamos identificar o modelo estat´ısticoS com o seu espa¸co de parˆametros Θ, isto ´e, S ≡ Θ. Dessa forma, vamos nos referir `a distribui¸c˜ao pθ como θ e usar frases como “o ponto θ” e “o
espa¸co tangente TθS”.
Exemplo 1.4 (Distribui¸c˜ao de Poisson). Uma vari´avel aleat´oria discreta X, em que X = {0, 1, 2, . . .}, segue uma distribui¸c˜ao de Poisson com parˆametro λ > 0 quando a sua fun¸c˜ao de massa de probabilidade ´e dada por
p(x; λ) = P (X = x) = λ
x
x! e
−λ
.
S = {pλ = p(x, λ); λ ∈ Θ} em que Θ = R+∗. Notemos que a aplica¸c˜ao λ7→ pλ ´e injetiva
e, al´em disso, o conjunto
∂pλ(x) ∂λ = e −λ(x − λ)λx−1 x!
tem apenas uma fun¸c˜ao n˜ao identicamente nula e portanto as condi¸c˜oes de regularidade da Defini¸c˜ao 1.2 s˜ao satisfeitas.
Exemplo 1.5(Distribui¸c˜ao Normal Univariada). Uma vari´avel aleat´oria real cont´ınua X, X = R, segue uma distribui¸c˜ao normal univariada (tamb´em conhecida como distribui¸c˜ao Gaussiana univariada) com m´edia µ∈ R e desvio padr˜ao σ ∈ (0, ∞) quando a sua fun¸c˜ao de densidade de probabilidade ´e definida por
p(x; µ, σ) = √1 2πσ exp − 1 2 x− µ σ 2! . Chamaremos de MH = {pθ = p(x; µ, σ); θ = (µ, σ) ∈ Θ}, em que Θ = {(µ, σ); µ ∈
R e θ ∈ (0, +∞)}, o modelo estat´ıstico de dimens˜ao 2 composto por essas distribui¸c˜oes. Como observado acima, muitas vezes vamos identificar o modelo estat´ıstico com o seu espa¸co de parˆametros e portanto podemos escreverMH ={θ; θ = (µ, σ) ∈ R × (0, +∞)}.
Para verificar as condi¸c˜oes de regularidade da Defini¸c˜ao 1.2, primeiro consideremos a fun¸c˜ao de verossimilhan¸ca L(pθ(x)) =− (x− µ)2 2σ2 − log σ − log √ 2π. As derivadas parciais de L s˜ao dadas por
∂L(pθ(x)) ∂µ = x− µ σ2 , ∂L(pθ(x)) ∂σ = (x− µ)2 σ3 − 1 σ,
logo, pela Proposi¸c˜ao 1.3, para mostrar que a condi¸c˜ao (ii) vale, basta mostrar que o conjunto nx−µσ2 , (x−µ)2 σ3 − 1 σ o
´e linearmente independente. De fato, fazendo a mudan¸ca de vari´avel y = x− µ, segue que o conjunto de polinˆomios n y
σ2, y2 σ3 − 1 σ o ´e linearmente independente. Agora, dados (µ1, σ1) e (µ2, σ2) em Θ, segue que
p(x; µ1, σ1) =p(x; µ2, σ2)⇒ log p(x; µ1, σ1) = log p(x; µ2, σ2)⇒ −(x− µ1) 2 2σ2 1 − log σ1 =− (x− µ2)2 2σ2 2 − log σ2
1.1. Modelo estat´ıstico 21 e, atrav´es de algumas manipula¸c˜oes alg´ebricas, ´e f´acil ver que µ1 = µ2 e σ1 = σ2. Portanto
vale a condi¸c˜ao (i).
No exemplo abaixo destacamos um modelo estat´ıstico que ´e bastante utilizado em Geometria da Informa¸c˜ao.
Exemplo 1.6 (Fam´ılia de Distribui¸c˜oes Exponencial). Seja S = {pθ; θ∈ Θ} um modelo
estat´ıstico de dimens˜ao n. Suponhamos que cada elemento deS admite a decomposi¸c˜ao
p(x; θ) = exp n X i=1 θiti(x)− F (θ) + C(x) ! ,
em que F (θ) ´e uma fun¸c˜ao diferenci´avel sobre Θ (chamada de fun¸c˜ao de log-normalizer ), C(x), t1(x), . . . , tn(x) s˜ao fun¸c˜oes reais e diferenci´aveis sobre X ⊂ Rk e, o conjunto
{1, t1(x), . . . , tn(x)} ´e linearmente independente. Ent˜ao, dizemos que S ´e uma fam´ılia
de distribui¸c˜oes exponencial e que os parˆametros θi’s, 1≤ i ≤ n, s˜ao seus parˆametros
nat-urais ou parˆametros canˆonicos. Vamos verificar as condi¸c˜oes de regularidade do modelo estat´ıstico S. Para mostrar a injetividade de ϕ : Θ → S, suponhamos que ϕ(θ) = ϕ(ξ), ent˜ao p(x; θ) =p(x; ξ) ⇒ log p(x; θ) = log p(x; ξ)⇒ n X i=1 θiti(x)− F (θ) = n X i=1 ξiti(x)− F (ξ).
Como {1, t1(x), . . . , tn(x)} ´e um conjunto linearmente independente segue que θi = ξi
para todo 1 ≤ i ≤ n. Consideremos agora a fun¸c˜ao de verossimillhan¸ca L e as suas derivadas parciais dadas por
L(pθ(x)) = n X i=1 θiti(x)− F (θ) + C(x) ∂L(pθ(x)) ∂θi =ti(x)− ∂F (θ) ∂θi , , 1≤ i ≤ n.
Novamente, pela independˆencia linear do conjunto {1, t1(x), . . . , tn(x)}, temos que
∂L(pθ(x))
∂θ1
, . . . ,∂L(pθ(x)) ∂θn
´e tamb´em um conjunto linearmente independente e, pela Proposi¸c˜ao 1.3, vale a condi¸c˜ao (ii).
Notemos que a condi¸c˜ao R
X p(x; θ)dx = 1 implica F (θ) = log Z X exp n X i=1 θiti(x) + C(x) ! dx
e portanto ´e f´acil ver que F ´e uma fun¸c˜ao estritamente convexa. Na teoria de an´alise convexa, uma dualidade fundamental ´e dada pela transforma¸c˜ao de Legendre-Fenchel: toda fun¸c˜ao convexa F admite uma fun¸c˜ao dual conjugada convexa F∗ dada por
F∗(η) = sup
η {hη, θi − F (θ)}.
O supremo ´e atingido no ´unico ponto em que o gradiente de F∗ se anula, isto ´e, quando
η=∇F (θ). O parˆametro η ´e chamado de parˆametros de expectativa e θ e η s˜ao chamados de parˆametros duais, ver referˆencia [44].
A fam´ılia de distribui¸c˜oes exponenciais representam uma ampla classe de dis-tribui¸c˜oes discretas e cont´ınuas que s˜ao determinadas pela sua fun¸c˜ao de log-normalizer, tais como Bernoulli, multinomial, gamma, Poisson, normal, entre outras . Em [44] os autores disponibilizaram uma tabela com a fun¸c˜ao de log-normalizer e as mudan¸cas de parˆametros das distribui¸c˜oes de probabilidade mais utilizadas. Por exemplo, a distribui¸c˜ao normal univariada apresentadas no Exemplo 1.5 pode ser escrita como
p(x; µ, σ) = 1 σ√2πexp − µ 2 2σ2 exp − x 2 2σ2 + µx σ2 . Seus parˆametros naturais s˜ao dados por
ϑ= (ϑ1, ϑ2) = µ σ2,− 1 2σ2 ∈ R × (−∞, 0) e a sua fun¸c˜ao de log-normalizer ´e
F (ϑ) =− ϑ 2 1 4ϑ2 +1 2log −π ϑ2 . Dessa forma, seus parˆametros de expectativa s˜ao
η =∇F (θ) = − ϑ1 2ϑ2 ,− 1 2ϑ2 +− ϑ 2 1 4ϑ2 2 = (µ, µ2+ σ2) ∈ R × (0, ∞).
1.2
M´
etrica de Fisher
SejaS um modelo estat´ıstico, em 1945 Rao [49] introduziu uma estrutura Rieman-niana em S atrav´es da matriz de informa¸c˜ao de Fisher.
Essencialmente, a matriz de informa¸c˜ao de Fisher ´e uma medida da quantidade de informa¸c˜ao que um conjunto de dados observados “carrega” sobre um parˆametro descon-hecido θ em qualquer dire¸c˜ao dada, [19].
Defini¸c˜ao 1.7. Seja S = {pθ; θ ∈ Θ} um modelo estat´ıstico de dimens˜ao n. Dado um
1.2. M´etrica de Fisher 23 ordem n, tal que
gij(θ) =Eθ ∂ ∂θi log p(x; θ) ∂ ∂θj log p(x; θ) = Z X ∂ ∂θi log p(x; θ) ∂ ∂θj log p(x; θ)p(x; θ)dx, (1.1) em que Eθ(f ) = R
Xf (x)p(x; θ)dx ´e a esperan¸ca com respeito `a distribui¸c˜ao pθ. Quando
n = 1 chamamos o escalar G(θ) de informa¸c˜ao de Fisher.
Observa¸c˜ao 1.8. Embora algumas vezes a integral dada na equa¸c˜ao (1.1) seja divergente, neste trabalho vamos assumir quegij(θ) ´e finita para todo θ e todo i, j, e que gij : Θ→ R
´e C∞.
Teorema 1.9. [11] A matriz de informa¸c˜ao de Fisher sobre qualquer modelo estat´ıstico ´e sim´etrica, definida positiva e n˜ao-degenerada.
Demonstra¸c˜ao. A simetria da matriz G(θ) segue diretamente da defini¸c˜ao. Observemos que cada entrada gij(θ) pode ser escrita como
gij(θ) = 4 Z X ∂ ∂θi pp(x; θ) ∂ ∂θj pp(x; θ) dx. De fato, gij(θ) = Z X ∂ ∂θi log p(x; θ) ∂ ∂θj log p(x; θ)p(x; θ)dx = Z X 1 p(x; θ) ∂p(x; θ) ∂θi 1 p(x; θ) ∂p(x; θ) ∂θj p(x; θ)dx =4 Z X 1 2pp(x; θ) ∂p(x; θ) ∂θi 1 2pp(x; θ) ∂p(x; θ) ∂θj dx =4 Z X ∂ ∂θi pp(x; θ) ∂ ∂θj pp(x; θ) dx.
Assim, para todo θ e para todo v = (v1, . . . , vn)t∈ TθS, v 6= 0, segue que
vtGv =X i,j gijvivj =4X i,j Z X vi ∂ ∂θi pp(x; θ) vj ∂ ∂θj pp(x; θ) dx =4 Z X X i vi ∂ ∂θi pp(x; θ) ! X j vj ∂ ∂θj pp(x; θ) ! dx =4 Z X X i vi ∂ ∂θi pp(x; θ) !2 dx≥ 0,
logo G(θ) ´e uma matriz definida n˜ao-negativa. Al´em disso, vtGv = 0⇔ Z X X i vi ∂ ∂θi pp(x; θ) !2 dx = 0⇔ X i vi ∂ ∂θi pp(x; θ) !2 = 0 ⇔X i vi ∂ ∂θipp(x; θ) = 0 ⇔ X i vi ∂p(x; θ) ∂θi = 0 ⇔ vi = 0, ∀ i = 1, . . . , n, e ∀ x ∈ X ,
uma vez que, pelas condi¸c˜oes de regularidade do modelo estat´ıstico S, o conjunto ∂pθ
∂θ1
, . . . ,∂pθ ∂θn
´e linearmente independente. Logo G(θ) ´e n˜ao degenerada e consequentemente G(θ) ´e
definida positiva.
A proposi¸c˜ao acima nos diz que a matriz de informa¸c˜ao de Fisher ´e uma m´etrica Riemanniana, tamb´em conhecida como m´etrica de Fisher. Portanto, segue que o modelo estat´ıstico S, munido da m´etrica Fisher, ´e uma variedade Riemanniana.
Exemplo 1.10. Seja o modelo estat´ıstico MH = {θ; θ = (µ, σ) ∈ R × (0, +∞)} das distribui¸c˜oes normais univariadas dado no Exemplo 1.5. A matriz de informa¸c˜ao de Fisher de MH em θ ´e dada por
G(θ) = 1 σ2 0 0 2 σ2 ! , (1.2)
ver referˆencia [18]. Logo, MH ´e uma variedade Riemanniana.
Os pr´oximos dois teoremas descrevem duas importantes propriedades da m´etrica de Fisher.
Teorema 1.11. [11] A m´etrica de Fisher ´e invariante em rela¸c˜ao `a reparametriza¸c˜ao do espa¸co amostral.
Demonstra¸c˜ao. Seja S = {pθ(x) = p(x, θ); θ ∈ Θ} um modelo estat´ıstico sobre X ⊆ Rn
e seja f : X → Y uma transforma¸c˜ao invert´ıvel que induz um modelo estat´ıstico Sf =
{qθ(y) = q(y, θ); y = f (x) e θ ∈ Θ} sobre Y ⊆ Rn. A rela¸c˜ao entre as fun¸c˜oes de
densidade e a aplica¸c˜ao f ´e dada por
1.2. M´etrica de Fisher 25 em que Jf(x) ´e a matriz Jacobiana da transforma¸c˜ao f . Dessa forma
log pθ(x) = log qθ(y) + log Det(Jf(x)),
diferenciado em rela¸c˜ao a θi, temos que
∂ ∂θi log pθ(x) = ∂ ∂θi log qθ(y) , (1.4)
i = 1, . . . , n, pois f n˜ao depende de θ. Assim, segue de (1.3) e (1.4) que
gij(θ) = Z X ∂ ∂θi log pθ(x) ∂ ∂θj log pθ(x) pθ(x)dx = Z X ∂ ∂θi log qθ(y) ∂ ∂θj log qθ(y) qθ(y) Det(Jf(x))dx = Z Y ∂ ∂θi log qθ(y) ∂ ∂θj log qθ(y) qθ(y)dy
e portanto segue a prova do Teorema.
Teorema 1.12. [11] A m´etrica de Fisher ´e invariante em rela¸c˜ao `a reparametriza¸c˜ao do espa¸co dos parˆametros. Isto ´e, sejam θ = (θ1, . . . , θn) e ξ = (ξ1, . . . , ξn) dois sistemas de
coordenadas do modelo estat´ısticoS tais que θ = θ(ξ), ou seja, θi = θi(ξ1, . . . , ξn), e sejam
G(θ) e ˜G(ξ) as m´etricas de Fisher em rela¸c˜ao as coordenadas θ e ξ, respectivemente, ent˜ao vale ˜ gij(ξ) = gkr(θ) θ=θ(ξ) ∂θk ∂ξi ∂θr ∂ξj .
Demonstra¸c˜ao. Consideremos a distribui¸c˜ao ˜pξ(x) = pθ(ξ)(x), temos que
∂ ˜pξ(x) ∂ξi = ∂θk ∂ξi ∂pθ(x) ∂θk e ∂ ˜pξ(x) ∂ξj = ∂θr ∂ξj ∂pθ(x) ∂θr . Logo, ˜ gij(ξ) = Z X ∂ ∂ξi log ˜pξ(x) ∂ ∂ξj log ˜pξ(x) ˜ pξ(x)dx = Z X 1 ˜ pξ(x) ∂ ˜pξ(x) ∂ξi ∂ ˜pξ(x) ∂ξj dx = Z X 1 pθ(ξ)(x) ∂pθ(x) ∂θk ∂pθ(x) ∂θr dx ∂θk ∂ξi ∂θr ∂ξj =gkr(θ) θ=θ(ξ) ∂θk ∂ξi ∂θr ∂ξj . Uma m´etrica Riemanniana sobre um modelo estat´ıstico S = {pθ(x); θ ∈ Θ}
igual `a m´etrica de Fisher. Esse importante resultado foi provado em 1972 por Chentsov em [17, Cap. 11].
Abaixo listamos dois dos principais resultados da teoria de informa¸c˜ao que est˜ao relacionados com a matriz de informa¸c˜ao de Fisher.
Entropia de Shannon
Em [8], Burbea e Rao mostram que a matriz de informa¸c˜ao de Fisher G(θ) pode ser vista como a matriz Hessiana da entropia de Shannon,
H(p) =− Z p(x; θ) log p(x; θ)dx. Isto ´e, gij(θ) = ∂2H(p) ∂θi∂θj .
Limitante de Cram´er-Rao
Suponha que um conjunto de dados x foi gerado aleatoriamente, sujeito a uma distribui¸c˜ao de probabilidade a qual ´e desconhecida mas assumida pertencer a um modelo estat´ıstico S = {pθ; θ ∈ Θ}. Consideremos o problema de estimar o parˆametro
descon-hecido θ por uma fun¸c˜ao ˆθ(x) dos dados x. A aplica¸c˜ao ˆθ = (ˆθ1, . . . , ˆθn) : X → Rn
introduzida para esse prop´osito ´e chamada de estimador. Dizemos que ˆθ ´e um estimador n˜ao enviesado quando
Eθ( ˆθ(X)) = θ para todo θ ∈ Θ.
O erro m´edio de um estimador n˜ao enviesado ˆθ pode ser expresso como a matriz de covariˆancia
covθ( ˆθ) = Eθ
( ˆθ(X)− θ)( ˆθ(X)− θ)t
.
Uma quest˜ao a ser analisada ´e: o qu˜ao bom um estimador pode ser? De maneira independente, C. Rao em [49] e H. Cram´er em [20] resolveram esse problema, mais ou menos na mesma ´epoca, e determinaram o que ´e conhecido hoje como o limitante de Cram´er-Rao. Este limitante afirma que a variˆancia de qualquer estimador n˜ao enviesado ´e, pelo menos, maior que o inverso da informa¸c˜ao de Fisher. Um estimador que atinge esse limitante inferior ´e chamado de estimador eficiente.
Teorema 1.13 (Limitante de Cram´er-Rao). A matriz de variˆancia covθ( ˆθ) de um
esti-mador n˜ao enviesado ˆθ satisfaz covθ( ˆθ) ≥ G(θ)−1, isto ´e, a matriz covθ( ˆθ)− G(θ)−1 ´e
1.3. Distˆancia de Fisher-Rao 27
1.3
Distˆ
ancia de Fisher-Rao
Seja M uma variedade Riemanniana munida de uma m´etrica G = [gij(p)], p∈ M.
Consideremos (U, ϕ), U ⊂ Rn aberto, um sistema de coordenadas para M em torno do
ponto p tal que ϕ(x1, . . . , xn) = p, o elemento infinitesimal da m´etrica G ´e dado por
ds2 =
n
X
i,j=1
gij(p)dxidxj.
Seja γ uma curva diferenci´avel por partes em M , definida no intervalo [t1, t2],
conectando dois pontos p e q em M , isto ´e, γ(t1) = p e γ(t2) = q. O comprimento de arco
da curva γ ´e dado por
`(γ) = Z t2 t1 q hγ0(t), γ0(t)i G dt,
em quehu, viG= ut[gij(p)]v ´e o produto interno definido por G e u, v∈ TpM s˜ao vetores
coluna.
A distˆancia geod´esica entre dois pontos p e q em M ´e dada pelo menor comprimento de arco de uma curva γ conectando p e q. Essa curva ´e chamada de curva geod´esica.
Uma curva geod´esica γ em um sistema de coordenadas (U, ϕ), γ(t) = (x1(t), . . . , xn(t)),
´e dada pela solu¸c˜ao das equa¸c˜oes de Euler-Lagrange, d2x k dt2 + X i,j Γkij dxi dt dxj dt = 0, k = 1,· · · , n, (1.5) na qual Γk
ij s˜ao os s´ımbolos de Christoffel dados por
Γmij = 1 2 X k ∂ ∂xi gjk+ ∂ ∂xj gki− ∂ ∂xk gij gkm, (1.6)
em que [gij] ´e a matriz inversa de G.
Observemos que, por defini¸c˜ao, o vetor tangente γ0(t) tem comprimento constante
[15], isto ´e, kγ0(t) k2 = n X i,j=1 gij(γ(t)) dθi dt dθj dt = cte. (1.7)
Defini¸c˜ao 1.14. Seja o modelo estat´ıstico S = {pθ; θ ∈ Θ}. A distˆancia de Fisher-Rao
entre duas distribui¸c˜oes pθ1 e pθ2 em S, dF, ´e dada pelo menor comprimento de arco de
uma curva em Θ conectando θ1 e θ2.
pelas equa¸c˜oes (1.5) e pelas condi¸c˜oes de contorno (
γ(t1) = pθ1
γ(t2) = pθ2
. (1.8)
A distˆancia de Fisher-Rao foi introduzida por C. Rao em [49] como uma medida adequada para o c´alculo da distˆancia entre duas popula¸c˜oes. Na pr´atica ´e muito dif´ıcil o c´alculo da distˆancia de Fisher-Rao na maioria dos modelos estat´ısticos, uma vez que envolve a solu¸c˜ao de equa¸c˜oes diferenciais de segunda ordem. Em alguns casos podemos simplificar o c´alculo dessa distˆancia relacionando a m´etrica do espa¸co com a m´etrica de espa¸cos j´a conhecidos (por exemplo, os espa¸cos Euclidiano, hiperb´olico, e esf´erico). Atkinson e Mitchell [5] e Burbea [10] descreveram a distˆancia de Fisher-Rao entre algumas distribui¸c˜oes de probabilidade: distribui¸c˜ao de Poisson, Multinomial, Gamma, normal, entre outras. No Exemplo 1.18, descreveremos a distˆancia de Fisher-Rao no espa¸co das distribui¸c˜oes normais univariadas. A m´etrica de Fisher nesse espa¸co est´a relacionada com a m´etrica do espa¸co hiperb´olico e, portanto, existe uma f´ormula expl´ıcita para a distˆancia de Fisher-Rao. No caso do espa¸co formado por distribui¸c˜oes normais multivariadas, ainda n˜ao se tem uma f´ormula fechada para a distˆancia de Fisher-Rao no caso geral, como veremos no Cap´ıtulo 2.
Observa¸c˜ao 1.15. Neste texto, vamos nos referir `a distˆancia de Fisher-Rao entre as distribui¸c˜oes pθ1 e pθ2 como a distˆancia entre os pontos θ1 e θ2.
Notemos que, como a m´etrica de Fisher ´e invariante em rela¸c˜ao `a mudan¸ca de parametriza¸c˜ao, a distˆancia de Fisher-Rao tamb´em o ´e.
Nas defini¸c˜oes abaixo, introduzimos o conceito de subvariedade totalmente geod´esica. Defini¸c˜ao 1.16. Seja M uma variedade de dimens˜ao n. Quando N ´e um subconjunto de M e a inclus˜ao i : N → M ´e um mergulho (isto ´e, i ´e diferenci´avel e di(p) : TpN → Ti(p)M
´e injetiva para todo p∈ N) dizemos que N ´e uma subvariedade de M.
Defini¸c˜ao 1.17. Uma subvariedade N de uma variedade Riemanniana M ´e dita total-mente geod´esica quando toda geod´esica de N ´e geod´esica de M .
Exemplo 1.18 (Distˆancia entre duas distribui¸c˜oes normais univariadas). Voltemos ao modelo estat´ıstico MH = {θ; θ = (µ, σ) ∈ R × (0, +∞)} composto por distribui¸c˜oes normais univariadas, apresentado no Exemplo 1.5. Neste espa¸co, uma forma fechada para a distˆancia de Fisher-Rao ´e conhecida via uma associa¸c˜ao com o modelo do plano hiperb´olico, ver referˆencias [5], [10] e [18].
Pela matriz de informa¸c˜ao de Fisher em MH dada na equa¸c˜ao (1.2), segue que a
express˜ao da m´etrica em MH ´e dada por
ds2 = dµ2 + 2dσ2
1.3. Distˆancia de Fisher-Rao 29 Como a matriz da m´etrica no modelo do plano superior de Poincar´e, H2 ={(x, y) ∈
R2; y > 0}, ´e dada por
GP(x, y) = 1 y2 0 0 1 y2 ! , (1.9)
segue que a m´etrica emMH est´a relacionada com a m´etrica de H2 atrav´es da aplica¸c˜ao
f : MH → H2 (µ, σ)7→ µ √ 2, σ . (1.10)
Logo, a distˆancia de Fisher-Rao entre os pontos (µ1, σ1) e (µ2, σ2) pertencentes a MH,
pode ser expressa em termos da distˆancia hiperb´olica de Poincar´e , dH2, como
dF((µ1, σ1), (µ2, σ2)) = √ 2dH2 µ1 √ 2, σ1 , µ√2 2, σ2 . Uma express˜ao anal´ıtica para dF por ser dada por, ver referˆencia [1],
dF((µ1, σ1), (µ2, σ2)) = √ 2 arccosh 1 + µ1 √ 2, σ1 −√µ2 2, σ2 2 2σ1σ2 (1.11)
em que |.| ´e a norma Euclidiana em R2.
As curvas geod´esicas de MH s˜ao as imagens inversas, por meio da transforma¸c˜ao
f , das curvas geod´esicas de H2. Essas geod´esicas s˜ao as semirretas verticais positivas e
as semi-elipses, centradas em σ = 0, com excentricidade √1
2. Resolvendo o sistema de
γ1 γ2
Figura 1.2: Geod´esicas de MH.
curva geod´esica γ : [0, 1]→ MH, tal que γ(0) = (µ1, σ1) e γ(1) = (µ2, σ2),dada por γ(t) = µ1, σ1exp log σ2 σ1 t , se µ1 = µ2 (semirreta). Se µ1 6= µ2 (semi-elipse), γ(t) = c 2 4 √c 3tanh √c3(c2+ t) 2sgn(µ2− µ1) + c1, c4 s c2 4c3 cosh √c3(c2+ t) + 1 ! , na qual c1 = µ2 1− µ22+ 2σ21− 2σ22 2(µ1− µ2) , c2 =− tanh−1 µ1−c4 √ c2 4−2c4µ1+µ21+2σ12 tanh−1 µ1−c4 √ c2 4−2c4µ1+µ21+2σ21 − tanh−1 µ2−c4 √ c2 4−2c4µ1+µ21+2σ12 , c3 =4 tanh −1 µ1− c4 pc2 4− 2c4µ1+ µ21+ 2σ21 ! − tanh−1 µ2− c4 pc2 4− 2c4µ1+ µ21+ 2σ21 !!2 , c4 = (c2 4− 2c4µ1 + µ21+ 2σ12)1/4 c3 .
A Figura 1.3 ilustra a curva geod´esica que liga os pontos P = (−0.5, 1) e Q = (1, 1.5) no plano MH e a Figura 1.4 ilustra o gr´afico de algumas distribui¸c˜oes que est˜ao relacionadas com pontos dessa curva.
P
R Q
Figura 1.3: Curva geod´esica ligando P e Q.
P
R
Q
Figura 1.4: Gr´afico das distribui¸c˜oes normais.
SejaMHµ0 a subvariedade deMH formada pelas distribui¸c˜oes normais univariadas com m´edia constante, MHµ0 ={θ ∈ MH; µ = µ0 ∈ R constante}. A distˆancia de
Fisher-1.4. Curvaturas 31 Rao entre dois pontos (µ0, σ1) e (µ0, σ2) em MHµ0 ´e dada por
dµ0((µ0, σ1), (µ0, σ2)) = √ 2 log σ2 σ1 .
As curvas geod´esicas em MHµ0 s˜ao as semirretas verticais positivas e portanto, MHµ0 ´e
uma subvariedade totalmente geod´esica, ver Figuras 1.5 e 1.6. Ou seja, a distˆancia em Fisher-Rao restrita `a subvariedadeMHµ0 ´e igual a distˆancia na variedade MH, dµ0 = dF.
A B C
Figura 1.5: Reta ligando A e B.
A
B C
Figura 1.6: Gr´afico das distribui¸c˜oes normais. Consideremos agora a subvariedade MHσ0 formada pelas distribui¸c˜oes normais
univariadas com o mesmo desvio padr˜ao,MHσ0 ={θ ∈ MH; σ = σ0 ∈ (0, ∞) constante}.
A distˆancia de Fisher-Rao entre duas distribui¸c˜oes (µ1, σ0) e (µ2, σ0) em MHσ0 ´e
dσ0((µ1, σ0), (µ2, σ0)) =
|µ1− µ2|
σ0
.
A subvariedade MHσ0 n˜ao ´e totalmente geod´esica, ver Figura 1.7 . De fato, dados dois pontos (µ1, σ0) e (µ2, σ0), temos que
dF((µ1, σ0), (µ2, σ0)) = √ 2 log (µ1 − µ2) 2+ 4σ2 0 +|µ1− µ2|p(µ1− µ2)2+ 8σ02 4σ2 0 ! < |µ1− µ2| σ0 .
1.4
Curvaturas
Nesta se¸c˜ao, vamos relembrar as defini¸c˜oes de curvatura seccional e curvatura escalar.
M N
Figura 1.7: Distˆancia n˜ao geod´esica.
Dada uma m´etrica Riemanniana G = [gij] em uma variedade M , consideremos
(U, ϕ), U ⊂ Rn aberto, um sistema de coordenadas para M em torno do ponto p tal que
ϕ(x1, . . . , xn) = p.
Defini¸c˜ao 1.19. Seja E ∈ TpM um subespa¸co de dimens˜ao 2 do espa¸co tangente TpM e
sejam x, y ∈ E dois vetores linearmente independentes. Ent˜ao a curvatura seccional de E em p ´e dada por
K(E; x, y) = P i,j,k,lRijklxiyjxkyl P i,j,k,l(gikgjl− gilgjk)xiyjxkyl , em que Rijkl= X l Rl ijkgls
´e o tensor curvatura Riemanniana, no qual os termos Rl
ijk podem ser expressos em termos
dos s´ımbolos de Christoffel Rl ijk = X s Γs ikΓ l js− X s Γs jkΓ l is+ ∂ ∂xj Γl ik− ∂ ∂xi Γl jk.
A curvatura seccional ´e uma generaliza¸c˜ao natural da curvatura Gaussiana das superf´ıcies, quando M = Rn, K(E; x, y) = 0 para todo E [15]. Variedades Riemannianas
de curvatura seccional constante s˜ao as mais simples e suas propriedades j´a foram bastante estudadas, por exemplo, o espa¸co Euclidiano (K ≡ 0), a esfera unit´aria (K ≡ 1) e o espa¸co hiperb´olico (K ≡ −1). No Exemplo abaixo mostramos que a variedade MHtem curvatura constante igual a −1/2.
Exemplo 1.20. Voltemos `a variedade MH e consideremos a matriz da m´etrica de Fisher em MH, G, dada em (1.2). Como a variedade ´e de dimens˜ao 2, temos apenas uma curvatura seccional. Um c´alculo direto dos s´ımbolos de Cristoffel (1.6) associados `a essa m´etrica mostra que os ´unicos s´ımbolos n˜ao nulos s˜ao
Γ1 12= Γ 1 21=− 1 σ, Γ 2 11 = 1 2σ e Γ 2 22 =− 1 σ.
1.5. Divergˆencia de Kullback-Leibler 33 Logo, os ´unicos tensores de curvatura Riemanniana n˜ao nulos s˜ao
R1212 = R2121 =−
1
σ4 e R1221 = R2112 =
1 σ4.
Para x = (1, 0) e y = (0, 1), segue que
K(E, ; x, y) = R1212 g11g22 = −1/σ 4 2/σ4 =− 1 2.
Uma outra no¸c˜ao de curvatura bastante utilizada ´e a de curvatura m´edia, tamb´em conhecida como curvatura escalar.
Defini¸c˜ao 1.21. A curvatura escalar de uma variedade Riemanniana M ´e dada por
R =X
i,j
gijRij,
em que Rij s˜ao os tensores de Ricci dados por
Rik =
X
i,j
Rijksgsj.
1.5
Divergˆ
encia de Kullback-Leibler
A divergˆencia de Kullback-Leibler ou entropia relativa ´e uma das medidas de dis-similaridade entre distribui¸c˜oes mais utilizadas. Dadas duas distribui¸c˜oes de probabilidade p e q pertencentes a um mesmo modelo estat´ıstico a divergˆencia de Kullback-Leibler, DKL,
´e dada por
DKL(pkq) = X xi∈X p(xi) log p(xi) q(xi) , se X ´e discreto Z X p(x) logp(x) q(x)dx, se X ´e cont´ınuo (1.12)
Dada uma distribui¸c˜ao p determinada a partir de um conjunto de observa¸c˜oes, pode-mos dizer que DKL mede a informa¸c˜ao perdida quando q ´e usada para aproximar p. A
divergˆencia de Kullback-Leibler n˜ao ´e uma distˆancia pois n˜ao satisfaz a condi¸c˜ao de sime-tria. Por isso, muitas vezes, uma vers˜ao simetrizada da divergˆencia ´e considerada. A divergˆencia de Kullback-Leibler simetrizada ´e definida por
DKL(θ1, θ2) =
1
2(DKL(θ1kθ2) + DKL(θ2kθ1)) .
Exemplo 1.22(Divergˆencia de Kullback-Leibler entre duas distribui¸c˜oes normais univari-adas). Dadas duas distribui¸c˜oes normais univariadas p1 = p(x; µ1, σ1) e p2 = p(x; µ2, σ2),
a divergˆencia de Kullback-Leibler entre elas ´e dada por, ver referˆencia [11], DKL(p1kp2) = 1 2 2 log σ2 σ1 +σ 2 1 σ2 2 + (µ1− µ2) 2 σ2 2 − 1 .
1.5.1
Rela¸
c˜
ao com a Distˆ
ancia de Fisher-Rao
A m´etrica de Fisher pode ser vista como uma aproxima¸c˜ao de segunda ordem da divergˆencia de Kullback-Leibler. As demostra¸c˜oes dos resultados apresentados nessa subse¸c˜ao podem ser encontradas em [11].
Proposi¸c˜ao 1.23. [11] Dado um modelo estat´ısticoS = {pθ; θ ∈ Θ}, seja ∆θi = θi−θ0i.
Ent˜ao DKL(pθkpθ0) = 1 2 X i,j gij(θ0)∆θi∆θj + o(|∆θ|2),
em que [gij(θ0)] ´e a matriz de informa¸c˜ao de Fisher dada em (1.1) e o(|∆θ|2) representa
a quantidade que tende a zero mais r´apido que |∆θ|2 quando ∆θ tende a zero.
Proposi¸c˜ao 1.24. [11] Sejam pθ1 e pθ2 duas distribui¸c˜oes pertencentes ao modelo
es-tat´ıstico S. Ent˜ao DKL(θ1kθ2) = 1 2d 2 F(θ1, θ2) + o(d2F(θ1, θ2)).
Corol´ario 1.25. [11] Sejam pθ1 epθ2 duas distribui¸c˜oes pertencentes ao modelo estat´ıstico
S e seja a divergˆencia de Kullback-Leibler simetrizada DKL(θ1, θ2) =
1
2(DKL(θ1kθ2) + DKL(θ2kθ1)). Ent˜ao
DKL(θ1, θ2) = d2F(θ1, θ2) + o(d2F(θ1, θ2)).
Considerando o modelo MH, ´e poss´ıvel escrever a divergˆencia de Kullback-Leibler em fun¸c˜ao da distˆancia de Fisher-Rao, ver referˆencia [18]. Dados dois pontos (µ, σ1) e
(µ, σ2), vimos no Exemplo 1.18 que a distˆancia de Fisher-Rao entre eles ´e dada por
d = dµ0((µ, σ1), (µ, σ2)) = √ 2 log σ2 σ1 . Sendo assim, segue que
DKL((µ, σ1)k(µ, σ2)) = 1 2 exp(−√2d) + 2√d 2 − 1 e DKL((µ, σ1), (µ, σ2)) = exp(√2d) + exp(−√2d) 2 − 1.
1.5. Divergˆencia de Kullback-Leibler 35
1.5.2
Rela¸
c˜
ao com a Divergˆ
encia de Bregman
Seja F : Θ→ R+uma fun¸c˜ao diferenci´avel estritamente convexa, sobre um dom´ınio
convexo Θ⊂ Rn. A divergˆencia de Bregman, D
F, ´e definida por, ver referˆencia [45],
DF(θ1kθ2) = F (θ1)− F (θ2)− hθ1− θ2,∇F (θ2)i, (1.13)
em queh·, ·i ´e o produto interno usual do Rn e∇F (θ
2) ´e o vetor gradiente de F no ponto
θ2.
A divergˆencia de Bregman define uma fam´ılia de medidas de dissimilaridades. Por exemplo, quando F (θ) = n X i=1 θi2
a divergˆencia de Bregman ´e o quadrado da distˆancia Euclidiana.
Consideremos agoraS uma fam´ılia de distribui¸c˜oes exponencial, dada no Exemplo 1.6. Sejam p(x; θp) e p(x; θq) duas distribui¸c˜oes em S e seja F a fun¸c˜ao de log nomalizer
que determina a fam´ılia S. A divergˆencia de Kullback-Leibler entre p(x; θp) e p(x; θq) ´e
equivalente `a divergˆencia de Bregman com os parˆametros naturais trocados, isto ´e, DKL(p(x; θp)kp(x; θq)) = DF(θqkθp). (1.14)
Cap´ıtulo
2
Distribui¸
c˜
ao Normal Multivariada
Neste cap´ıtulo vamos fazer um estudo da distˆancia de Fisher-Rao no modelo es-tat´ıstico composto por distribui¸c˜oes normais multivariadas. Neste modelo uma f´ormula fechada para a distˆancia de Fisher-Rao no caso geral ainda n˜ao ´e conhecida.
Uma vari´avel aleat´oria X, X ⊂ Rn, segue uma distribui¸c˜ao normal multivariada
quando a sua fun¸c˜ao de densidade de probabilidade ´e definida por
p(x; µ, Σ) = (2π) −(n 2) pDet(Σ)exp −(x− µ) tΣ−1(x − µ) 2 , em que xt = (x
1, . . . , xn)∈ Rn´e um vetor aleat´orio, µt = (µ1, . . . , µn) ∈ Rn ´e o vetor de
m´edias e Σ = [σij] ∈ Pn(R) ´e a matriz de covariˆancia (Pn(R) ´e o conjunto das matrizes
sim´etricas definidas positivas de ordem n). Seja M = {θ; θ = (µ, Σ) ∈ Rn× P
n(R)} o
modelo estat´ıstico formado por essas distribui¸c˜oes. Atrav´es da identifica¸c˜ao (µ, Σ)7→ (µ1, . . . , µn, σ11, . . . , σ1n, . . . , σkk, . . . , σkn, . . . , σnn)
temos que M ´e isomorfo a um subconjunto aberto de Rp, p = n + n(n+1) 2 , [54].
Ao longo do cap´ıtulo, descrevemos a distˆancia de Fisher-Rao em algumas subvar-iedades de M e apresentamos alguns algoritmos num´ericos que permitem o c´alculo da distˆancia de Fisher-Rao . Al´em disso, derivamos alguns limitantes para essa distˆancia.
2.1
Distˆ
ancia de Fisher-Rao
Seja a variedade estat´ıstica M = {θ; θ = (µ, Σ) ∈ Rn× P
n(R)}. Dado θ ∈ M a
2.1. Distˆancia de Fisher-Rao 37 matricial como gij(θ) = ∂µt ∂θi Σ−1∂µ ∂θj +1 2tr Σ−1∂Σ ∂θi Σ−1∂Σ ∂θi , (2.1) ver referˆencia [48].
Dado θ ∈ M, o espa¸co tangente de M em θ ´e o conjunto TθM = {(x, A); x ∈
Rn e A ∈ Sn(R)}, em que Sn(R) ´e o espa¸co das matrizes sim´etricas de ordem n com
entradas reais, [54]. Sejam V = (x, A) e W = (y, B) vetores pertencentes a TθM, o
produto interno no ponto θ = (µ, Σ) associado a matriz de informa¸c˜ao de Fisher G(θ), dada em (2.1), ´e hV, W iθ = xtΣ−1y+ 1 2tr(Σ −1 AΣ−1B). (2.2)
Logo, o elemento infinitesimal da m´etrica de Fisher pode ser expresso por ds2 = dµtΣ−1dµ + 1
2tr[(Σ
−1dΣ)2], (2.3)
na qual dµt = (dµ
1, . . . , dµn) ∈ Rn e dΣ ∈ Sn(R) ´e a matriz cujas entradas s˜ao as
derivadas da entradas correspondentes da matriz Σ, [54].
Uma importante propriedade da m´etrica de Fisher deM ´e que ela ´e invariante em rela¸c˜ao a transforma¸c˜oes afins. O resultado abaixo foi dado em [10] sem demonstra¸c˜ao, apresentamos uma prova do mesmo no Apˆendice A.
Teorema 2.1. Para todo(c, Q)∈ Rn× GL
n(R), em que Gln(R) ´e o espa¸cos das matrizes
invert´ıveis de ordem n, a aplica¸c˜ao
ψ(c,Q): M → M
(µ, Σ) 7→ (Qµ + c, QΣQt), (2.4)
estabelece uma isometria emM. Isto ´e, ψ(c,Q) ´e um difeomorfismo e, para todo θ∈ M e
U, V,∈ TθM, vale
hU, V iθ =hdψ(c,Q)(θ)· U, dψ(c,Q)(θ)· V iψ(c,Q)(θ). (2.5)
Corol´ario 2.2. A distˆancia de Fisher-Rao entre θ1 = (µ1, Σ1) e θ2 = (µ2, Σ2) em M
satisfaz
dF(θ1, θ2) = dF(ψ(c,Q)(θ1), ψ(c,Q)(θ2)) = dF((Qµ1+ c, QΣ1Qt), (Qµ2+ c, QΣ2Qt)), (2.6)
para todo(c, Q)∈ Rn× GL n(R).
Demonstra¸c˜ao. A prova desse corol´ario segue diretamente da defini¸c˜ao da distˆancia de
Fisher-Rao e da defini¸c˜ao de isometria.
2.1 e que ser˜ao utilizadas ao longo desse cap´ıtulo. Antes de enunciarmos este resultado recordamos que a raiz quadrada de uma matriz A, denotada por A1/2ou√A, ´e uma matriz
X tal que XX = A. Quando A ´e uma matriz diagonal, A1/2 ´e uma matriz diagonal tal
que cada elemento ´e a raiz quadrada do elemento correspondente da diagonal de A. Se A ´e uma matriz sim´etrica definida positiva ent˜ao, dada a sua decomposi¸c˜ao ortogonal A = OΛOt, em que O ´e uma matriz ortogonal cujas colunas s˜ao os autovetores de A e
Λ ´e uma matriz diagonal formada pelos autovalores de A, a raiz quadrada de A pode ser dada por A1/2 = OΛ1/2Ot.
Corol´ario 2.3. Sejam θ1 = (µ1, Σ1) e θ2 = (µ2, Σ2) e θ0 := (0, In), em que 0 ´e o vetor
nulo de dimens˜ao n e In ´e a matriz identidade de ordem n, pontos em M. Ent˜ao:
(i) Dada Σ1 = OΛ1Ot a decomposi¸c˜ao ortogonal da matriz Σ1, sejaΣ −1/2 1 = OΛ −1/2 1 Ot, segue que ψ1 = ψ −Σ−1/21 µ1,Σ−1/21 ´e uma isometria e dF(θ1, θ2) = dF(θ0, ψ1(θ2)), em que ψ1(θ2) = (Σ −1/2 1 (µ2− µ1), Σ −1/2 1 Σ2Σ −1/2 1 ), ver referˆencia [10].
(ii) Dada Σ1 = GGt a fatora¸c˜ao de Cholesky da matriz Σ1 segue que ψ2 = ψ(−G−1µ 1,G−1)
´e uma isometria e
dF(θ1, θ2) = dF(θ0, ψ2(θ2)),
em que ψ2(θ2) = (G−1(µ2− µ1), G−1Σ2G−t)
(iii) Considerando θ = (µ, Σ) = ψ1(θ2) ou θ = (µ, Σ) = ψ2(θ2) e Σ = OΛOt a
de-composi¸c˜ao ortogonal de Σ, segue que ψ3 = ψ(0,Ot)◦ ψi, i = 1, 2, ´e uma isometria
e
dF(θ1, θ2) = dF(θ0, ψ3(θ)),
onde ψ3(θ) = (Otµ, Λ).
(iv) Considerando θ = (µ, Σ) = ψ1(θ2) ou θ = (µ, Σ) = ψ2(θ2) e P uma matriz de
proje¸c˜ao ortogonal tal que P µ = kµkej, em que ej ´e um dos vetores canˆonicos do
Rn, segue que ψ4 = ψ(0,P )◦ ψi, i = 1, 2, ´e uma isometria e
dF(θ1, θ2) = dF(θ0, ψ4(θ)),
onde ψ4(θ) = (kµkej, P ΣPt).
Demonstra¸c˜ao. Para mostrar o item (i), observemos que Σ−(1/2)1 ´e invert´ıvel e pelo Teo-rema 2.1, a aplica¸c˜ao ψ1 = ψ
−Σ(−1/2)1 µ1,Σ−(1/2)1
´e uma isometria. Portanto segue do
Corol´ario 2.2 que d(θ1, θ2) = dF(ψ1(θ1), ψ1(θ2)) = dF((0, In), (Σ −(1/2) 1 (µ2− µ1), Σ −(1/2) 1 Σ2Σ −(1/2) 1 ).
2.1. Distˆancia de Fisher-Rao 39 No item (ii), como G ´e invert´ıvel, de forma an´aloga `a demonstra¸c˜ao do item (i), a aplica¸c˜ao ψ2 = ψ(−G−1µ
1,G−1) ´e uma isometria e
dF(θ1, θ2) = dF(ψ2(θ1), ψ2(θ2)) = dF((0, In), (G−1(µ2− µ1), G−1Σ2G−t).
Seja a isometria θ = ψi(θ2) = (µ, Σ), i = 1, 2, e seja Σ = OΛOt. Como O ´e uma
matriz ortogonal, pelo Teorema 2.1, ψ(0,Ot) ´e uma isometria e logo, segue do Corol´ario 2.2
que a isometria ψ3 = ψ(0,Ot)◦ ψi, i = 1, 2, ´e tal que
dF(θ1, θ2) =dF(ψ3(θ1), ψ3(θ2))
=dF(ψ(0,Ot)(ψi(θ0)), ψ(0,Ot)(ψi(θ2)))
=dF(ψ(0,Ot)(θ0), ψ(0,Ot)(θ))
=dF((Ot0, OtO), (Otµ, OtOΛOtO))
=dF((0, In), (Otµ, Λ)),
logo mostramos o item (iii).
Finalmente, par mostrar o item (iv), observemos que, de forma an´aloga `a demon-stra¸c˜ao do item (iii), ψ4 = ψ(0,P )◦ ψi, i = 1, 2, ´e uma isometria e
dF(θ1, θ2) =dF(ψ4(θ1), ψ4(θ2)) =dF(ψ(0,P )(ψi(θ0)), ψ(0,P )(ψi(θ2))) =dF(ψ(0,P )(θ0), ψ(0,P )(θ)) =dF((P 0, P Pt), (P µ, P ΣPt)) =dF((0, In), (kµkej, P ΣPt)). Observemos que a isometria ψ2´e mais barata de ser calculada computacionalmente,
uma vez que o c´alculo do fator Cholesky de uma matriz ´e mais barato que o c´alculo da sua decomposi¸c˜ao ortogonal. Esse fato torna-se mais evidente em dimens˜oes maiores. Na Se¸c˜ao 2.3.2 vamos utilizar os resultados acima para derivar alguns limitantes para a distˆancia de Fisher-Rao.
Exemplo 2.4.Consideremos duas distribui¸c˜oes normais bivariadas pθ1 e pθ2 parametrizadas,
respectivamente, por θ1 = −1 −1 ! , 1.25 0.43 0.43 0.75 !! e θ2 = 2 1 ! , 1.375 −0.65 −0.65 2.125 !! .
isometrias dadas no Corol´ario 2.3, a Figura 2.1(b) ilustra os gr´aficos e as curvas de n´ıvel das distribui¸c˜oes com parˆametros θ0,
ψ1(θ2) = −1 −1 ! , 1.75 −1.88 −1.88 3.92 !! e ψ2(θ2) = 2 1 ! , 1.1 −1.3 −1.3 4.57 !! .
Fazendo θ = ψ1(θ2), temos que
-4 -2 0 2 4 -2 0 2 4 Parâmetros θ1 θ2
(a) Gr´aficos e curvas de n´ıvel das distribui¸c˜oes normais bivariadas com parˆametros θ1 e θ2.
-4 -2 0 2 4 -2 0 2 4 Parâmetros θ0 ψ1(θ2) ψ2(θ2)
(b) Gr´aficos e curvas de n´ıvel das distribui¸c˜oes normais bivariadas com parˆametros θ0,
ψ1(θ2) e ψ2(θ2), dF(θ0, ψ1(θ2)) = dF(θ0, ψ2(θ2)). Figura 2.1 ψ3(θ2) = 0.33 −2.94 ! , 5 0 0 0.67 !! e ψ4(θ2) = 2.96 0 ! , 1.25 0.43 0.43 0.75 !! .
As curvas de n´ıvel das distribui¸c˜oes com parˆametros θ0 e ψ3(θ2) e com parˆametros θ0 e
ψ4(θ2), est˜ao ilustradas nas Figuras 2.2(a) e 2.2(b), respectivamente. Notemos que, pelo
Corol´ario 2.3, dF(θ1, θ2) = dF(θ0, ψi(θ2)), para todo i = 1, . . . , 4.
2.1. Distˆancia de Fisher-Rao 41 Parâmetros θ0 ψ3(θ2) -4 -2 0 2 4 6 -4 -2 0 2
(a) Curvas de n´ıvel das distribui¸c˜oes normais bivariadas com parˆametros θ0 e ψ3(θ2).
Parâmetros θ0 ψ4(θ2) -4 -2 0 2 4 6 -4 -2 0 2
(b) Curvas de n´ıvel das distribui¸c˜oes normais bivariadas com parˆametros θ0e ψ4(θ2).
Figura 2.2
γ(t) = (µ(t), Σ(t)). A curva γ ´e uma curva geod´esica de M se suas fun¸c˜oes coorde-nadas satisfazem as seguintes equa¸c˜oes [54]
d2µ dt2 − dΣ dt Σ−1 dµ dt = 0 d2Σ dt2 + dµ dt dµ dt t − dΣ dt Σ−1 dΣ dt = 0 . (2.7)
Essas equa¸c˜oes podem ser parcialmente integr´aveis como [25] dµ dt = Σx dΣ dt = Σ(B− x t µ), (2.8)
em que (x, B)∈ TθM s˜ao as constantes de integra¸c˜ao.
Consideremos a mudan¸ca natural de parˆametros dada pela aplica¸c˜ao ϕ, definida em M, dada por
ϕ(µ(t), Σ(t)) = (δ(t), ∆(t)) = (Σ(t)−1µ(t), Σ(t)−1). O sistema de equa¸c˜oes diferenciais (2.8) torna-se
d∆ dt =−B∆ + xδ t dδ dt =−Bδ + (1 + δ∆ −1 δ)x . (2.9)
Suponhamos que as equa¸c˜oes acima est˜ao sujeitas `as seguintes condi¸c˜oes iniciais (δ(0), ∆(0)) = (δ0, ∆0) dδ dt(0), d∆ dt (0) = (x0,−B0), (2.10)
ou seja, a velocidade inicial da curva geod´esica no ponto (δ0, ∆0) ∈ M ´e (x0,−B0).
Observemos que as condi¸c˜oes (2.10) podem ser tomadas como (δ(0), ∆(0)) = (0, In) dδ dt(0), d∆ dt (0) = (x,−B). (2.11)
De fato, seja ∆0 = GGt a decomposi¸c˜ao de Cholesky da matriz ∆0 e seja
(x, B) = (G−1x0, G−1B0G−t).
Seja (¯δ(t), ¯∆(t)) a curva geod´esica satisfazendo (2.11) e consideremos a isometria ψ = ψ(δ0,G), ent˜ao (δ(t), ∆(t)) = ψ(¯δ(t), ¯∆(t)) = (G¯δ(t) + δ0, G ¯∆(t)G
t) ´e a curva geod´esica
que satisfaz as condi¸c˜oes iniciais (2.10).
Eriksen [25] em 1986 e Calvo e Oller [13] em 1990 resolveram, independentemente, o problema de valor inicial dado pelas equa¸c˜oes (2.9) e (2.11). Eriksen descreveu a curva geod´esica em termos de uma aplica¸c˜ao exponencial, por´em ele n˜ao derivou uma f´ormula expl´ıcita para tal geod´esica. Por outro lado, Calvo e Oller resolveram um sistema de equa¸c˜oes diferencial muito mais geral e, dessa forma, encontraram uma f´ormula expl´ıcita para a curva geod´esica. Em [34] os autores conseguiram calcular a curva geod´esica atrav´es do resultado obtido por Eriksen e mostraram que a curva era a mesma dada em [13]. Essa f´ormula expl´ıcita ´e dada por
δ(t) =− B(cosh(tG) − In)(G−)2x+ senh(tG)G−x ∆(t) =In+ 1 2(cosh(tG)− In) + 1 2B(cosh(tG)− In)(G − )2B −12senh(tG)G−B −1 2B senh(tG)G − , (2.12)
em que G2 = B2+ 2xxt e G−´e a matriz inversa generalizada da matriz quadrada G, isto
´e, GG−G = G.
Como uma curva geod´esica tem velocidade constante em todo ponto, dado (x, B)∈ TθM, a distˆancia de Fisher-Rao entre (0, In) e (δ(1), ∆(1)) ´e dada por
Z 1
0 pk(δ
0(t), ∆0(t))k dt =r 1
2tr(B
2.1. Distˆancia de Fisher-Rao 43 Mesmo com a solu¸c˜ao dada em (2.12), dados dois pontos θ1 = (µ1, Σ1) e θ2 =
(µ2, Σ2) em M, em geral, ainda n˜ao se tem uma f´ormula fechada para a distˆancia de
Fisher-Rao entre θ1 e θ2 e nem uma formula expl´ıcita para a curva geod´esica ligando
esses dois pontos. Para isso, ´e necess´ario resolver o problema de valor de contorno dado pelas equa¸c˜oes (2.7) e por
((µ(0), Σ(0)) = (µ1, Σ1)
(µ(1), Σ(1)) = (µ2, Σ2)
. (2.13)
Uma quest˜ao a ser abordada ´e se essa geod´esica existe.
Defini¸c˜ao 2.5. Uma variedade Riemanniana M ´e completa quando para todo p ∈ M, a aplica¸c˜ao exponencial, expp (a curva geod´esica partindo de p no instante t = 0), est´a definida para todo v∈ TpM . Isto ´e, se as geod´esicas γ(t) que partem de p est˜ao definidas
para todos os valores do parˆametro t∈ R.
Vimos que todo θ∈ M pode ser levado isometricamente para o ponto θ0logo, pela
solu¸c˜ao dada nas equa¸c˜oes (2.12), a curva γ(t) est´a definida para todo t∈ R e portanto segue queM ´e completa. Dessa forma, pelo Teorema de Hopf e Rinow [15, Cap. 7], para todo ponto θ1 e θ2 pertencente a M, existe uma curva geod´esica γ que liga esses pontos
e `(γ) = dF(θ1, θ2).
A seguir, descreveremos a distˆancia de Fisher-Rao e as curvas geod´esicas em algu-mas subvariedades de M.
2.1.1
A subvariedade
M
Σ0onde
Σ
0´
e constante
SejaMΣ0 ={θ ∈ M, Σ = Σ0 ∈ Pn(R) constante} a subvariedade de dimens˜ao n
composta pelas distribui¸c˜oes normais multivariadas com a mesma matriz de covariˆancia. A m´etrica de Fisher deMΣ0 ´e
ds2 = dµtΣ−1 0 dµ,
a qual, a menos da matriz constante Σ0 ´e essencialmente a m´etrica Euclidiana [5]. A
distˆancia de Fisher-Rao entre θ1 = (µ1, Σ0) e θ2 = (µ2, Σ0) ´e igual a
dΣ0(θ1, θ2) =
q
(µ1 − µ2)tΣ−10 (µ1− µ2). (2.14)
A distˆancia acima ´e igual a distˆancia dada por Mahalanobis [40] (chamada de distˆancia de Mahalanobis), um dos pioneiros no estudo de medidas de similaridade entre dados que tinham algum tipo de correla¸c˜ao.
Uma curva geod´esica tal que γ(0) = θ1 e γ(1) = θ2 em MΣ0 ´e dada por
Observemos que, assim como no caso univariado, a subvariedade MΣ0 n˜ao ´e totalmente
geod´esica [54].
Exemplo 2.6. Sejam duas distribui¸c˜oes bivariadas com parˆametros θ1 = ((−1, 0)t, Σ0) e
θ2 = ((6, 3)t, Σ0), em que Σ0 = 1.1 0.9 0.9 1.1 ! .
A Figura 2.3 ilustra a curva geod´esica em MΣ0 conectando essas distribui¸c˜oes: as
cur-vas em vermelho s˜ao as curcur-vas de n´ıveis das distribui¸c˜oes pθ1 e pθ2, as curvas em azul
representam algumas curvas de n´ıvel das distribui¸c˜oes por onde a curva geod´esica passa e, o segmento em cinza, representa a curva geod´esica no plano µ1× µ2. A distˆancia de
Fisher-Rao em MΣ0 entre os pontos θ1 e θ2 ´e dΣ0(θ1, θ2) = 8.06226.
-4 -2 0 2 4 6 8 10
-2 0 2 4
Figura 2.3: Curva geod´esica emMΣ0(segmento cinza) ligando duas distribui¸c˜oes normais
bivariadas com parˆametros θ1 = ((−1, 0)t, Σ0) e θ2 = ((6, 3)t, Σ0).
2.1.2
A subvariedade
M
µµµ0onde
µ
µ
µ
0´
e constante
Seja Mµ0 ={θ ∈ M; µ = µ0 ∈ R
n constante} ⊂ M a subvariedade de dimens˜ao n(n+1)
2 composta por distribui¸c˜oes com o mesmo vetor de m´edias µ0. A m´etrica de Fisher
nessa subvariedade ´e dada por
ds2 = 1
2tr[(Σ
−1
dΣ)2].
Essa m´etrica foi estudada por v´arios autores como, por exemplo, Siegel [53] atrav´es de matrizes Hermitianas e por Atkinson-Mitchell [5] e Burbea [10] atrav´es das subvar-iedades de M.
A distˆancia entre θ1 = (µ0, Σ1) e θ2 = (µ0, Σ2) ´e
d2 µ0(θ1, θ2) = 1 2 n X i=1 [log(λi)]2, (2.15)
2.1. Distˆancia de Fisher-Rao 45 em que 0 < λ1 ≤ λ2 ≤ · · · ≤ λn s˜ao os autovalores de Σ−11 Σ2.
Uma curva geod´esica γ(t) = (µ(t), Σ(t)) emMµ0 ligando dois pontos θ1 = (µ0, Σ1)
e θ2 = (µ0, Σ2) com γ(0) = θ1 e γ(1) = θ2 ´e dada por [43]
γ(t) = (µ0, Σ 1/2 1 exp(t log(Σ −1/2 1 Σ2Σ −1/2 1 ))Σ 1/2 1 ).
Novamente, assim como no caso univariado, a subvariedade Mµ0 ´e uma
subvar-iedade totalmente geod´esica [54]. Ou seja, toda curva geod´esica de Mµ0 ´e tamb´em uma
geod´esica de M. Assim, dµ0(θ1, θ2) = dF(θ1, θ2) para todo θ1, θ2 ∈ Mµ0.
Exemplo 2.7. Sejam duas distribui¸c˜oes bivariadas com parˆametros θ1 = ((0, 0)t, Σ1) e
θ2 = ((0, 0)t, Σ2), em que Σ1 = 1 0 0 8 ! e Σ2 = 8 0 0 1 ! .
Na Figura 2.4, as curvas em vermelho ilustram as curvas de n´ıveis das distribui¸c˜oes pθ1 e
pθ2 e as curvas em azul representam algumas curvas de n´ıvel das distribui¸c˜oes por onde a
curva geod´esica passa. Al´em disso dF(θ1, θ2) = 2.07944.
-4 -2 0 2 4 -4 -2 0 2 4
Figura 2.4: Curva geod´esica emMµ0 ligando duas distribui¸c˜oes normais bivariadas com