• Nenhum resultado encontrado

Geometria do modelo estatístico das distribuições normais multivariadas

N/A
N/A
Protected

Academic year: 2021

Share "Geometria do modelo estatístico das distribuições normais multivariadas"

Copied!
115
0
0

Texto

(1)

UNIVERSIDADE ESTADUAL DE CAMPINAS

Instituto de Matem´

atica, Estat´ıstica e

Computa¸c˜

ao Cient´ıfica

JULIANNA PINELE SANTOS PORTO

Geometria do Modelo Estat´ıstico das

Distribui¸

oes Normais Multivariadas

Campinas

2017

(2)

Geometria do Modelo Estat´ıstico das Distribui¸

oes

Normais Multivariadas

Tese apresentada ao Instituto de

Matem´atica, Estat´ıstica e Computa¸c˜ao Cient´ıfica da Universidade Estadual de Campinas como parte dos requisitos exigidos para a obten¸c˜ao do t´ıtulo de Doutora em Matem´atica Aplicada.

Orientador: Jo˜ao Eloir Strapasson

Coorientadora: Sueli Irene Rodrigues Costa

Este exemplar corresponde `a vers˜ao da Tese defendida pela aluna Julianna Pinele Santos Porto e orientada pelo Prof. Dr. Jo˜ao Eloir Strapasson.

Campinas

2017

(3)

Agência(s) de fomento e nº(s) de processo(s): CNPq, 140364/2015-3; CAPES

Ficha catalográfica Universidade Estadual de Campinas

Biblioteca do Instituto de Matemática, Estatística e Computação Científica Ana Regina Machado - CRB 8/5467

Porto, Julianna Pinele Santos,

P838g PorGeometria do modelo estatístico das distribuições normais multivariadas / Julianna Pinele Santos Porto. – Campinas, SP : [s.n.], 2017.

PorOrientador: João Eloir Strapasson. PorCoorientador: Sueli Irene Rodrigues Costa.

PorTese (doutorado) – Universidade Estadual de Campinas, Instituto de Matemática, Estatística e Computação Científica.

Por1. Geometria da informação. 2. Matriz de informação de Fisher. 3. Distância de Rao. 4. Distribuição guaussiana. 5. Algoritmo k-means. I. Strapasson, João Eloir,1979-. II. Costa, Sueli Irene Rodrigues,1949-. III. Universidade Estadual de Campinas. Instituto de Matemática, Estatística e Computação Científica. IV. Título.

Informações para Biblioteca Digital

Título em outro idioma: Geometry of the statistical model of the multivariate normal

distributions

Palavras-chave em inglês:

Information geometry Fisher information matrix Rao distance

Gaussian distribution k-means algorithm

Área de concentração: Matemática Aplicada Titulação: Doutora em Matemática Aplicada Banca examinadora:

João Eloir Strapasson [Orientador] Pedro Jose Catuogno

Leonardo Tomazeli Duarte Rui Facundo Vigelis Marcelo Muniz Silva Alves

Data de defesa: 03-08-2017

Programa de Pós-Graduação: Matemática Aplicada

(4)

pela banca examinadora composta pelos Profs. Drs.

Prof(a). Dr(a). JOÃO ELOIR STRAPASSON

Prof(a). Dr(a). PEDRO JOSE CATUOGNO

Prof(a). Dr(a). LEONARDO TOMAZELI DUARTE

Prof(a). Dr(a). RUI FACUNDO VIGELIS

Prof(a). Dr(a). MARCELO MUNIZ SILVA ALVES

(5)

`

(6)

Agrade¸co `a minha m˜ae por todo apoio que sempre me deu nessa longa caminhada at´e aqui, por ser a minha inspira¸c˜ao sendo a mulher lutadora que ´e, fornecendo a melhor educa¸c˜ao poss´ıvel aos seus filhos e os apoiando em suas decis˜oes. Agrade¸co ao meu irm˜ao Sandro, por ter me apresentado `a matem´atica e por sempre estar ao meu lado.

Agrade¸co `a toda `a minha fam´ılia, por estarem sempre presentes, me dando for¸ca para continuar, por torcerem por mim e por me receberem de bra¸cos abertos, compartil-hando comigo todas as gl´orias e dificuldades.

Agrade¸co ao meu orientador Jo˜ao Strapasson o qual sem ele n˜ao poderia ter feito esse trabalho. Agrade¸co pelo apoio, for¸ca, paciˆencia e dedica¸c˜ao durante esses seis anos de trabalho (mestrado e doutorado).

`

A minha coorientadora Sueli Costa, por todos os trabalhos que realizamos juntas, e pela for¸ca e incentivo que me deu nos momentos dif´ıceis.

Agrade¸co ao Professor Aur´elio de Oliveira por toda a aten¸c˜ao, paciˆencia e por ser uma pessoa com quem eu sempre pude contar durante esses meus seis anos na Unicamp. Agrade¸co ao Jo˜ao, por ser meu companheiro de todas as horas nesses quatro anos de doutorado, por ter compartilhando comigo os momentos de ˆexito e de dificuldades, por toda a paciˆencia, persistˆencia, cuidado e por todo carinho.

Agrade¸co aos amigos que conquistei aqui em Campinas, muitos deles hoje s˜ao minha fam´ılia tamb´em. Com tanto tempo fora de casa, acabamos construindo outras fam´ılias, compostas por pessoas que conquistam nosso cora¸c˜ao e que a gente sabe que pode contar sempre. Agrade¸co pelo apoio nos momento de cansa¸co, pelas comemora¸c˜oes nos momentos de alegria e aos nossos “reggaes” no Esta¸c˜ao Bar˜ao que nos permitiram aproveitar um pouco todos esses momentos.

Ao pessoal do Laborat´orio MDC, pela companhia e pelos diversos momentos que compartilhamos, ´e importante fazer parte de um grupo.

(7)

N´ıvel Superior) e do CNPQ (Conselho Nacional de Desenvolvimento Cient´ıfico e Tec-nol´ogico), sem o mesmo este trabalho n˜ao seria poss´ıvel.

(8)
(9)

Resumo

Na ´area de Geometria da Informa¸c˜ao, ferramentas de geometria diferencial s˜ao utilizadas no estudo de modelos estat´ısticos. Num trabalho pioneiro em 1945, C. Rao in-troduziu uma m´etrica Riemanniana, dada pela matriz de informa¸c˜ao de Fisher, no espa¸co composto por distribui¸c˜oes de probabilidade parametrizadas. Atrav´es dessa m´etrica, a distˆancia entre as distribui¸c˜oes (chamada de distˆancia de Fisher-Rao), geod´esicas, curva-turas e outras propriedades do espa¸co s˜ao analisadas.

Abordamos neste trabalho a distˆancia de Fisher-Rao na variedade composta por distribui¸c˜oes normais multivariadas. Descrevemos a distˆancia de Fisher-Rao e as cur-vas geod´esicas em algumas subvariedades e apresentamos alguns limitantes para esta distˆancia no caso geral. Al´em disso, utilizamos a distˆancia de Fisher-Rao como medida de dissimilaridade em dois algoritmos de agrupamento de dados (algoritmos k-m´edias e agrupamento hier´arquico). Por fim, apresentamos algumas aplica¸c˜oes desses algoritmos de agrupamentos na ´area de segmenta¸c˜ao de imagens.

Palavras-chave: Geometria da Informa¸c˜ao, m´etrica de Fisher, distˆancia de Fisher-Rao,

dis-tribui¸c˜ao normal multivariada, algoritmo k-m´edias, algoritmo de agrupamento hier´arquico,

(10)

In the Information Geometry area, geometry differential tools are used to study statistical models. In a pioneer work in 1945, C. Rao introduced a Riemannian metric given by the Fisher information matrix, on the space composed by parametrized proba-bility distributions. Through this metric, a distance between the distributions (called the Fisher-Rao distance), geodesics, curvatures and other space properties are analyzed.

In this work, we approach the Fisher-Rao distance in the multivariate normal distributions manifold. We describe the Fisher-Rao distance and the geodesic curves in some submanifolds and we present some bounds for the Fisher-Rao distance in general case. Furthermore, we use the Fisher-Rao distance as a dissimilarity measure in two clustering algorithms (the k-means and the hierarchical clustering algorithms). Some applications of these clustering algorithms in the image segmentation are presented.

Palavras-chave: Information Geometry, Fisher metric, Fisher-Rao distance, multivariate

nor-mal distribution, k-means algorithm, hierarchical clustering algorithm, Kullback-Leibler diver-gence.

(11)

Sum´ario

Introdu¸c˜ao 13

1 Preliminares em Geometria da Informa¸c˜ao 16

1.1 Modelo estat´ıstico . . . 16

1.2 M´etrica de Fisher . . . 22

1.3 Distˆancia de Fisher-Rao . . . 27

1.4 Curvaturas . . . 31

1.5 Divergˆencia de Kullback-Leibler . . . 33

1.5.1 Rela¸c˜ao com a Distˆancia de Fisher-Rao . . . 34

1.5.2 Rela¸c˜ao com a Divergˆencia de Bregman . . . 35

2 Distribui¸c˜ao Normal Multivariada 36 2.1 Distˆancia de Fisher-Rao . . . 36

2.1.1 A subvariedade MΣ0 onde Σ0 ´e constante . . . 43

2.1.2 A subvariedade Mµµµ0 onde µµµ0 ´e constante . . . 44

2.1.3 A subvariedade MD onde Σ ´e diagonal . . . 46

2.1.4 A subvariedade MDµµµ em que Σ ´e diagonal e µµµ ´e um autovetor de Σ 47 2.1.5 Produto de Subvariedades totalmente geod´esica . . . 51

2.2 Algoritmos Num´ericos . . . 52

2.2.1 Algoritmo Geodesic shooting . . . 53

2.2.2 Sistema de Equa¸c˜oes . . . 54

2.3 Limitantes para a distˆancia de Fisher-Rao . . . 69

2.3.1 Limitante Inferior . . . 69

2.3.2 Limitantes Superiores . . . 69

2.3.3 Compara¸c˜ao dos Limitantes . . . 75

(12)

3.1.1 Algoritmo Maximiza¸c˜ao de Expectativa . . . 84

3.1.2 Algoritmo k-m´edias . . . 85

3.1.3 Agrupamento Hier´arquico . . . 86

3.2 Centroides no Modelos das Distribui¸c˜oes Normais Multivariadas . . . 87

3.2.1 Centroides de Bregman . . . 87

3.2.2 Centroide de Galperin . . . 88

3.3 Algoritmos de Simplifica¸c˜ao de Misturas Gaussianas . . . 91

3.3.1 Algoritmo k-m´edias Fisher-Rao Diagonal . . . 91

3.3.2 Agrupamentos Hier´arquico . . . 92

3.4 Aplica¸c˜ao em Segmenta¸c˜ao de Imagens . . . 93

4 Conclus˜oes e perspectivas 102

Bibliografia 103

A Prova do Teorema 2.1 109

(13)

13

Introdu¸c˜ao

M´etricas e distˆancias entre distribui¸c˜oes de probabilidade tem um importante papel em diversas ´areas e aplica¸c˜oes. Consideremos as distribui¸c˜oes normais univariadas com m´edia µ e desvio padr˜ao σ,

p(x; µ, σ) = √1 2πσ exp − 1 2  x− µ σ 2! .

A Figura 1 ilustra uma compara¸c˜ao entre as distribui¸c˜oes normais: `a esquerda est˜ao repre-sentadas distribui¸c˜oes normais com parˆametros A, B, C e D e `a direita os parˆametros est˜ao representados no plano m´edia×desvio padr˜ao. Fixando o valor da m´edia e aumentando o valor do desvio padr˜ao ´e intuitivo notar que, num mesmo intervalo, a dissimilaridade entre as distribui¸c˜oes com parˆametros C e D ´e menor que a dissimilaridade entre as dis-tribui¸c˜oes parametrizadas por A e B. Logo, observando as posi¸c˜oes dos parˆametros A, B, C e D no plano m´edia×desvio padr˜ao, conclu´ımos que a distˆancia Euclidiana n˜ao ´e uma boa medida para calcular a distˆancia entre esses parˆametros [18].

Figura 1: Distribui¸c˜oes normais univariadas e seus parˆametros no plano µ× σ (figura retirada de [18]).

(14)

Em busca de uma medida adequada para determinar a distˆancia entre duas popu-la¸c˜oes, C. R. Rao [49] em 1945 introduziu m´etodos de geometria diferencial para modelar um espa¸co composto por distribui¸c˜oes de probabilidade (modelos estat´ısticos) utilizando a matriz de informa¸c˜ao dada por R. Fisher [26] em 1921. Esse importante trabalho foi o precursor da ´area conhecida hoje como Geometria da Informa¸c˜ao. Embora autores como Mahalanobis [40] e Bhattacharyya [7] j´a tivessem feito rela¸c˜oes entre geometria e estat´ıstica, foi Rao quem estudou conceitos de geometria diferencial e fez conex˜oes com a matriz de informa¸c˜ao de Fisher, ver referˆencia [46]. Ele introduziu os conceitos de m´etrica de Fisher (uma m´etrica Riemanniana) e de distˆancia geod´esica entre duas distribui¸c˜oes de probabilidade, chamada nesse trabalho de distˆancia de Fisher-Rao.

Em [49], Rao calculou a distˆancia de Fisher-Rao entre duas distribui¸c˜oes normais univariadas. Esse trabalho motivou diversos autores a utilizarem ferramentas geom´etricas no estudo de modelos estat´ıstico, assim como estimulou o estudo de outras medidas de dissimilaridade entre distribui¸c˜oes de probabilidade e o interesse em determinar f´ormulas fechadas para a express˜ao da distˆancias entre as mesmas. Efron [24] em 1975, introduziu a no¸c˜ao de curvatura nos modelos compostos por distribui¸c˜oes com apenas um parˆametro. Este trabalho foi seguido por contribui¸c˜oes significantes de Dawid [22] e Reeds [50]. Amari [2, 3] foi quem unificou a teoria introduzindo outros conceitos de conex˜oes em modelos de distribui¸c˜oes de probabilidade. Num trabalho independentemente, Chentsov [17] calculou a distˆancia de Fisher-Rao entre algumas distribui¸c˜oes de probabilidade e mostrou que a m´etrica de Fisher ´e a ´unica m´etrica Riemanniana invariante no espa¸co composto por distribui¸c˜oes de probabilidade.

No c´alculo da distˆancia de Fisher-Rao entre distribui¸c˜oes em geral destacam-se os trabalhos de Atkinson e Mitchell [5], no qual os autores calcularam a distˆancia de Fisher-Rao entre distribui¸c˜oes com apenas um parˆametro, e de Burbea [10], onde o autor fez um estudo do modelo das distribui¸c˜oes multinomiais. Al´em disso, eles tamb´em apresentaram alguns resultados sobre a distˆancia de Fisher-Rao no espa¸co composto por distribui¸c˜oes normais multivariadas em casos particulares. Sato et. al. [51] em 1979 descreveram algu-mas propriedades geom´etricas do espa¸co composto por distribui¸c˜oes normais bivariadas, um trabalho que foi generalizado por Skovgaard [54] em 1984. Ademais, Eriksen [25] e Calvo e Oller [13] calcularam express˜oes para a curva geod´esica no espa¸co das distribui¸c˜oes normais multivariadas. Hoje em dia, ainda n˜ao ´e conhecida uma f´ormula fechada para a distˆancia de Fisher-Rao no modelo das distribui¸c˜oes normais multivariadas no caso geral. Distribui¸c˜oes de probabilidade s˜ao elementos fundamentais em ´areas como es-tat´ıstica, processamento estoc´asticos, aprendizado de m´aquina e teoria da informa¸c˜ao. Rao [49] e Skovgaard [54] utilizaram a distˆancia de Fisher-Rao em problemas de inferˆencia estat´ıstica. A distˆancia de Fisher-Rao tamb´em foi utilizada no estudo de tensores de di-fus˜ao de imagens de ressonˆancia magn´etica em [31,37,43]. Aplica¸c˜oes da m´etrica de Fisher no espa¸co das distribui¸c˜oes normais univariadas nas ´areas de morfologia e deforma¸c˜ao de

(15)

Introdu¸c˜ao 15 imagens s˜ao apresentadas, respectivamente, em [41] e [4]. Al´em disso, em [52] a distˆancia de Fisher-Rao foi utilizada para simplificar misturas Gaussianas atrav´es do algoritmo de agrupamento k-m´edias. Uma aplica¸c˜ao da distˆancia de Fisher-Rao entre distribui¸c˜oes normais multivariadas na ´area de sistemas de radares ´e apresentada em [47].

Neste trabalho, fazemos um estudo da distˆancia de Fisher-Rao no modelo es-tat´ıstico composto por distribui¸c˜oes normais multivariadas. Resumimos alguns resultados j´a conhecidos na literatura exibindo a distˆancia de Fisher-Rao em alguns subvariedades deste modelo estat´ıstico. Encontramos duas subvariedades totalmente geod´esicas e exibi-mos uma f´ormula fechada para a distˆancia de Fisher-Rao nessas subvariedades. Apresen-tamos tamb´em o c´alculo da distˆancia entre certos pares de pontos atrav´es da resolu¸c˜ao de sistemas. Utilizando uma isometria neste espa¸co, derivamos alguns limitantes superiores para a distˆancia de Fisher-Rao no caso geral. Atrav´es de algumas simula¸c˜oes, mostramos que, em alguns casos, os limitantes apresentam boas aproxima¸c˜oes para distˆancia. Al´em disso, aplicamos a distˆancia de Fisher-Rao ao problema de simplifica¸c˜ao de misturas gaus-sianas atrav´es de algoritmos de agrupamento. Experimentos na ´area de segmenta¸c˜ao de imagens s˜ao apresentados.

A organiza¸c˜ao do trabalho ´e descrita abaixo.

No Cap´ıtulo 1, apresentamos alguns conceitos de Geometria da Informa¸c˜ao e in-troduzimos a m´etrica de Fisher e a distˆancia de Fisher-Rao. Relembramos a defini¸c˜ao de curvatura numa variedade Riemanniana e mostramos algumas rela¸c˜oes entre a distˆancia de Fisher e a divergˆencia de Kullback-Leibler, uma outra medida de dissimilaridade entre distribui¸c˜oes.

Apresentamos, no Cap´ıtulo 2, uma an´alise da distˆancia de Fisher-Rao no espa¸co composto por distribui¸c˜oes normais multivariadas. Descrevemos uma isometria neste espa¸co e mostramos f´ormulas fechadas para a distˆancia de Fisher-Rao em alguns casos par-ticulares. Derivamos duas subvariedades totalmente geod´esicas e calculamos a distˆancia de Fisher-Rao para certos pares de pontos. Apresentamos tamb´em alguns limitantes para a distˆancia de Fisher-Rao e fazemos algumas compara¸c˜oes entre os mesmos.

O problema de simplifica¸c˜ao de misturas Gaussianas ´e apresentado no Cap´ıtulo 3. Descrevemos os algoritmos de agrupamento de dados k-m´edias e hier´arquico e apresen-tamos algumas defini¸c˜oes de centroide no modelo das distribui¸c˜oes normais multivari-adas. Fazemos algumas adapta¸c˜oes dos algoritmos de agrupamentos apresentados para serem utilizados no problema de simplifica¸c˜ao de misturas Gaussianas com matrizes de covariˆancia diagonais atrav´es do uso da distˆancia de Fisher-Rao. Al´em disso, mostramos tamb´em uma aplica¸c˜ao na ´area de segmenta¸c˜ao de imagens.

No ´ultimo cap´ıtulo apresentamos algumas considera¸c˜oes finais e perspectivas de futuros trabalhos.

(16)

Cap´ıtulo

1

Preliminares em Geometria da

Informa¸

ao

Neste cap´ıtulo, apresentamos alguns conceitos e resultados preliminares em Geome-tria da Informa¸c˜ao. O objetivo ´e introduzir as principais ferramentas que ser˜ao utilizadas ao longo do texto. As principais referˆencias sobre Geometria da Informa¸c˜ao nas quais foram baseadas este cap´ıtulo foram [2], [3] e [11]. Assumimos tamb´em conhecimento pr´evio dos resultados b´asicos em geometria Riemanniana que podem ser encontrados em [15] e [32].

1.1

Modelo estat´ıstico

Seja Ω o conjunto de todos os resultados poss´ıveis de um experimento aleat´orio, chamado de espa¸co amostral. Uma σ-´algebra F sobre o conjunto Ω ´e uma cole¸c˜ao de sub-conjuntos de Ω a qual ´e fechada sobre uni˜oes, interse¸c˜oes enumer´aveis e complementa¸c˜oes de subconjuntos de F. Os elementos de F s˜ao chamados de eventos e dizemos que o par (Ω,F) ´e um espa¸co mensur´avel.

Defini¸c˜ao 1.1. Uma fun¸c˜ao P : F → R ´e chamada uma medida probabilidade sobre F quando

(i) 0≤ P (E) ≤ 1, para todo E ∈ F; (ii) P (∅) = 0;

(iii) Se E1, E2, . . . s˜ao conjuntos disjuntos dois a dois no espa¸co mensur´avel (Ω,F) ent˜ao

P [ i≥1 Ei ! =X i≥1 P (Ei).

(17)

1.1. Modelo estat´ıstico 17 Um espa¸co de probabilidade ´e um espa¸co mensur´avel (Ω,F, P ) com medida de probabilidade P .

Uma vari´avel aleat´oria real X : Ω→ R sobre um espa¸co de probabilidade ´e uma fun¸c˜ao real, definida no espa¸co amostral Ω, tal que {ω ∈ Ω; X(ω) ≤ x} ∈ F para todo x ∈ R. Uma vari´avel aleat´oria de dimens˜ao n, X = (X1, . . . , Xn), ´e um vetor

cujas componentes Xi : Ω → R, i = 1, . . . , n, s˜ao vari´aveis aleat´orias reais. Seja X um

subconjunto de Rn. Dizemos que X : Ω → X ´e uma vari´avel aleat´oria discreta quando

X ´e um conjunto enumer´avel de pontos. A fun¸c˜ao de massa de probabilidade de X (uma distribui¸c˜ao de probabilidade discreta) ´e uma fun¸c˜ao p :X → R dada por

p(x) = P (X = x) = P \ x∈X {ω ∈ Ω; Xi(ω) = xi} ! a qual satisfaz X x∈X p(x) = 1.

QuandoX = RnouX ´e uma uni˜ao de bolas em Rndizemos que X : Ω→ X ´e uma vari´avel

aleat´oria cont´ınua. A fun¸c˜ao de densidade de probabilidade de X (uma distribui¸c˜ao de probabilidade cont´ınua) ´e uma fun¸c˜ao p :X → R satisfazendo

p(x)≥ 0, ∀ x ∈ X e Z

X

p(x)dx = 1, em que R

X ´e a integral com respeito `a medida de Lebesgue sobre X . Dado um conjunto

abertoD ⊂ X , a rela¸c˜ao entre a medida de probabilidade P e a fun¸c˜ao de densidade p(x) ´e dada por

P (X ∈ D) = Z

D

p(x)dx.

Um modelo estat´ıstico S ´e uma fam´ılia de distribui¸c˜oes de probabilidade sobre X . Neste trabalho estamos interessados em uma fam´ılia de fun¸c˜oes de distribui¸c˜oes de probabilidade que depende de v´arios parˆametros e pode ser vista como uma variedade. Defini¸c˜ao 1.2. Seja

S = {pθ(x) = p(x; θ); θ = (θ1, θ2, . . . , θn)∈ Θ},

uma fam´ılia de distribui¸c˜oes de probabilidade sobreX . Suponha que cada elemento pθ de

S seja parametrizado por n vari´aveis reais θ = (θ1, θ2, . . . , θn)∈ Θ, em que Θ, chamado

de espa¸co dos parˆametros, ´e um subconjunto aberto do Rn (ou de um espa¸co isomorfo ao

Rn). O conjunto S ´e um subconjunto do espa¸co das fun¸c˜oes P(X ) =  f : X → R; f(x) ≥ 0 ∀ x ∈ X e Z X f (x)dx = 1  .

(18)

Suponhamos que

(i) a aplica¸c˜ao ϕ : Θ → S definida por ϕ(θ) = pθ ´e injetiva e suficientemente suave

(isto ´e, diferenci´avel quantas vezes forem necess´arias); (ii) o conjunto  ∂pθ ∂θ1 , . . . , ∂pθ ∂θn 

´e linearmente independente sobre X .

Dizemos que S ´e um modelo param´etrico de dimens˜ao n.

As condi¸c˜oes (i) e (ii) da defini¸c˜ao acima s˜ao chamadas condi¸c˜oes de regularidade do modelo estat´ıstico S.

Uma aplica¸c˜ao bastante utilizada em teoria estat´ıstica ´e a fun¸c˜ao de verossimil-han¸ca L : S → F(X , R), em que F(X , R) = {f; f : X → R ´e diferenci´avel}, definida por

L(pθ(x)) = log p(x; θ).

As derivadas parciais da aplica¸c˜ao L, ∂L(pθ(x))

∂θj

= ∂ log p(x; θ) ∂θj

,

para todo 1≤ j ≤ n, s˜ao chamadas fun¸c˜oes score e descrevem como a informa¸c˜ao contida em pθ varia na dire¸c˜ao de θj.

Proposi¸c˜ao 1.3. [11] A segunda condi¸c˜ao de regularidade de um modelo estat´ıstico S = {pθ; θ ∈ Θ} vale se, e somente se, pra todo θ ∈ Θ o conjunto

 ∂L(pθ(x)) ∂θ1 , . . . ,∂L(pθ(x)) ∂θn  ´ e linearmente independente.

Demonstra¸c˜ao. Basta observar que ∂L(pθ(x)) ∂θj = ∂ log p(x; θ) ∂θj = 1 p(x; θ) ∂p(x; θ) ∂θj .  Para dar continuidade `a teoria, vamos assumir que as ordens de integra¸c˜ao e de diferencia¸c˜ao podem ser livremente trocadas, assim poderemos fazer contas do tipo

Z X ∂p(x; θ) ∂θi dx = ∂ ∂θi Z X p(x; θ)dx = ∂ ∂θi (1) = 0.

(19)

1.1. Modelo estat´ıstico 19 O modelo estat´ıstico S = {pθ; θ ∈ Θ} ´e a imagem de uma aplica¸c˜ao injetiva ϕ,

dada por ϕ(θ) = pθ, a qual pode ser vista como um sistema de coordenadas (Θ, ϕ) paraS.

Ou seja, a pr´opria parametriza¸c˜ao do modelo estat´ıstico S ´e um sistema de coordenadas global (o que ocorre com a maioria de modelos param´etricos). A parametriza¸c˜ao de um modelo estat´ıstico n˜ao ´e ´unica. Seja ψ um difeomorfismo de classe C∞ de Θ em

ψ(Θ) ⊂ Rn, a aplica¸c˜ao ϕ ◦ ψ−1 : ψ(Θ)

→ S, ´e um outro sistema de coordenadas paraS, ver Figura 1.1. Ent˜ao, tomando ξ = ψ(θ) como parˆametro em vez de θ, obtemos S = {pψ−1(ξ); ξ ∈ ψ(Θ)}. Se tomarmos parametriza¸c˜oes que s˜ao difeomorfismos C∞ent˜ao

podemos considerar S uma variedade diferenci´avel C∞, a qual chamamos de variedade

estat´ıstica. S pθ Θ ψ(Θ) θ ϕ ψ ϕ◦ ψ−1 ψ(θ)

Figura 1.1: Sistemas de coordenadas.

Dada uma parametriza¸c˜ao do modelo estat´ıstico S, ϕ(θ) = pθ, o conjunto

 ∂ ∂θ1  θ , . . . ,  ∂ ∂θn  θ 

´e uma base do espa¸co tangente de S em pθ.

Observamos que, para facilitar a nota¸c˜ao, muitas vezes ao longo do texto vamos identificar o modelo estat´ısticoS com o seu espa¸co de parˆametros Θ, isto ´e, S ≡ Θ. Dessa forma, vamos nos referir `a distribui¸c˜ao pθ como θ e usar frases como “o ponto θ” e “o

espa¸co tangente TθS”.

Exemplo 1.4 (Distribui¸c˜ao de Poisson). Uma vari´avel aleat´oria discreta X, em que X = {0, 1, 2, . . .}, segue uma distribui¸c˜ao de Poisson com parˆametro λ > 0 quando a sua fun¸c˜ao de massa de probabilidade ´e dada por

p(x; λ) = P (X = x) = λ

x

x! e

−λ

.

(20)

S = {pλ = p(x, λ); λ ∈ Θ} em que Θ = R+∗. Notemos que a aplica¸c˜ao λ7→ pλ ´e injetiva

e, al´em disso, o conjunto

 ∂pλ(x) ∂λ  = e −λ(x − λ)λx−1 x! 

tem apenas uma fun¸c˜ao n˜ao identicamente nula e portanto as condi¸c˜oes de regularidade da Defini¸c˜ao 1.2 s˜ao satisfeitas.

Exemplo 1.5(Distribui¸c˜ao Normal Univariada). Uma vari´avel aleat´oria real cont´ınua X, X = R, segue uma distribui¸c˜ao normal univariada (tamb´em conhecida como distribui¸c˜ao Gaussiana univariada) com m´edia µ∈ R e desvio padr˜ao σ ∈ (0, ∞) quando a sua fun¸c˜ao de densidade de probabilidade ´e definida por

p(x; µ, σ) = √1 2πσ exp − 1 2  x− µ σ 2! . Chamaremos de MH = {pθ = p(x; µ, σ); θ = (µ, σ) ∈ Θ}, em que Θ = {(µ, σ); µ ∈

R e θ ∈ (0, +∞)}, o modelo estat´ıstico de dimens˜ao 2 composto por essas distribui¸c˜oes. Como observado acima, muitas vezes vamos identificar o modelo estat´ıstico com o seu espa¸co de parˆametros e portanto podemos escreverMH ={θ; θ = (µ, σ) ∈ R × (0, +∞)}.

Para verificar as condi¸c˜oes de regularidade da Defini¸c˜ao 1.2, primeiro consideremos a fun¸c˜ao de verossimilhan¸ca L(pθ(x)) =− (x− µ)2 2σ2 − log σ − log √ 2π. As derivadas parciais de L s˜ao dadas por

∂L(pθ(x)) ∂µ = x− µ σ2 , ∂L(pθ(x)) ∂σ = (x− µ)2 σ3 − 1 σ,

logo, pela Proposi¸c˜ao 1.3, para mostrar que a condi¸c˜ao (ii) vale, basta mostrar que o conjunto nx−µσ2 , (x−µ)2 σ3 − 1 σ o

´e linearmente independente. De fato, fazendo a mudan¸ca de vari´avel y = x− µ, segue que o conjunto de polinˆomios n y

σ2, y2 σ3 − 1 σ o ´e linearmente independente. Agora, dados (µ1, σ1) e (µ2, σ2) em Θ, segue que

p(x; µ1, σ1) =p(x; µ2, σ2)⇒ log p(x; µ1, σ1) = log p(x; µ2, σ2)⇒ −(x− µ1) 2 2σ2 1 − log σ1 =− (x− µ2)2 2σ2 2 − log σ2

(21)

1.1. Modelo estat´ıstico 21 e, atrav´es de algumas manipula¸c˜oes alg´ebricas, ´e f´acil ver que µ1 = µ2 e σ1 = σ2. Portanto

vale a condi¸c˜ao (i).

No exemplo abaixo destacamos um modelo estat´ıstico que ´e bastante utilizado em Geometria da Informa¸c˜ao.

Exemplo 1.6 (Fam´ılia de Distribui¸c˜oes Exponencial). Seja S = {pθ; θ∈ Θ} um modelo

estat´ıstico de dimens˜ao n. Suponhamos que cada elemento deS admite a decomposi¸c˜ao

p(x; θ) = exp n X i=1 θiti(x)− F (θ) + C(x) ! ,

em que F (θ) ´e uma fun¸c˜ao diferenci´avel sobre Θ (chamada de fun¸c˜ao de log-normalizer ), C(x), t1(x), . . . , tn(x) s˜ao fun¸c˜oes reais e diferenci´aveis sobre X ⊂ Rk e, o conjunto

{1, t1(x), . . . , tn(x)} ´e linearmente independente. Ent˜ao, dizemos que S ´e uma fam´ılia

de distribui¸c˜oes exponencial e que os parˆametros θi’s, 1≤ i ≤ n, s˜ao seus parˆametros

nat-urais ou parˆametros canˆonicos. Vamos verificar as condi¸c˜oes de regularidade do modelo estat´ıstico S. Para mostrar a injetividade de ϕ : Θ → S, suponhamos que ϕ(θ) = ϕ(ξ), ent˜ao p(x; θ) =p(x; ξ) log p(x; θ) = log p(x; ξ)⇒ n X i=1 θiti(x)− F (θ) = n X i=1 ξiti(x)− F (ξ).

Como {1, t1(x), . . . , tn(x)} ´e um conjunto linearmente independente segue que θi = ξi

para todo 1 ≤ i ≤ n. Consideremos agora a fun¸c˜ao de verossimillhan¸ca L e as suas derivadas parciais dadas por

L(pθ(x)) = n X i=1 θiti(x)− F (θ) + C(x) ∂L(pθ(x)) ∂θi =ti(x)− ∂F (θ) ∂θi , , 1≤ i ≤ n.

Novamente, pela independˆencia linear do conjunto {1, t1(x), . . . , tn(x)}, temos que

 ∂L(pθ(x))

∂θ1

, . . . ,∂L(pθ(x)) ∂θn



´e tamb´em um conjunto linearmente independente e, pela Proposi¸c˜ao 1.3, vale a condi¸c˜ao (ii).

Notemos que a condi¸c˜ao R

X p(x; θ)dx = 1 implica F (θ) = log Z X exp n X i=1 θiti(x) + C(x) ! dx

(22)

e portanto ´e f´acil ver que F ´e uma fun¸c˜ao estritamente convexa. Na teoria de an´alise convexa, uma dualidade fundamental ´e dada pela transforma¸c˜ao de Legendre-Fenchel: toda fun¸c˜ao convexa F admite uma fun¸c˜ao dual conjugada convexa F∗ dada por

F∗(η) = sup

η {hη, θi − F (θ)}.

O supremo ´e atingido no ´unico ponto em que o gradiente de F∗ se anula, isto ´e, quando

η=∇F (θ). O parˆametro η ´e chamado de parˆametros de expectativa e θ e η s˜ao chamados de parˆametros duais, ver referˆencia [44].

A fam´ılia de distribui¸c˜oes exponenciais representam uma ampla classe de dis-tribui¸c˜oes discretas e cont´ınuas que s˜ao determinadas pela sua fun¸c˜ao de log-normalizer, tais como Bernoulli, multinomial, gamma, Poisson, normal, entre outras . Em [44] os autores disponibilizaram uma tabela com a fun¸c˜ao de log-normalizer e as mudan¸cas de parˆametros das distribui¸c˜oes de probabilidade mais utilizadas. Por exemplo, a distribui¸c˜ao normal univariada apresentadas no Exemplo 1.5 pode ser escrita como

p(x; µ, σ) = 1 σ√2πexp  − µ 2 2σ2  exp  − x 2 2σ2 + µx σ2  . Seus parˆametros naturais s˜ao dados por

ϑ= (ϑ1, ϑ2) =  µ σ2,− 1 2σ2  ∈ R × (−∞, 0) e a sua fun¸c˜ao de log-normalizer ´e

F (ϑ) =− ϑ 2 1 4ϑ2 +1 2log  −π ϑ2  . Dessa forma, seus parˆametros de expectativa s˜ao

η =∇F (θ) =  − ϑ1 2ϑ2 , 1 2ϑ2 + ϑ 2 1 4ϑ2 2  = (µ, µ2+ σ2) ∈ R × (0, ∞).

1.2

etrica de Fisher

SejaS um modelo estat´ıstico, em 1945 Rao [49] introduziu uma estrutura Rieman-niana em S atrav´es da matriz de informa¸c˜ao de Fisher.

Essencialmente, a matriz de informa¸c˜ao de Fisher ´e uma medida da quantidade de informa¸c˜ao que um conjunto de dados observados “carrega” sobre um parˆametro descon-hecido θ em qualquer dire¸c˜ao dada, [19].

Defini¸c˜ao 1.7. Seja S = {pθ; θ ∈ Θ} um modelo estat´ıstico de dimens˜ao n. Dado um

(23)

1.2. M´etrica de Fisher 23 ordem n, tal que

gij(θ) =Eθ  ∂ ∂θi  log p(x; θ) ∂ ∂θj  log p(x; θ)  = Z X ∂ ∂θi  log p(x; θ) ∂ ∂θj  log p(x; θ)p(x; θ)dx, (1.1) em que Eθ(f ) = R

Xf (x)p(x; θ)dx ´e a esperan¸ca com respeito `a distribui¸c˜ao pθ. Quando

n = 1 chamamos o escalar G(θ) de informa¸c˜ao de Fisher.

Observa¸c˜ao 1.8. Embora algumas vezes a integral dada na equa¸c˜ao (1.1) seja divergente, neste trabalho vamos assumir quegij(θ) ´e finita para todo θ e todo i, j, e que gij : Θ→ R

´e C∞.

Teorema 1.9. [11] A matriz de informa¸c˜ao de Fisher sobre qualquer modelo estat´ıstico ´e sim´etrica, definida positiva e n˜ao-degenerada.

Demonstra¸c˜ao. A simetria da matriz G(θ) segue diretamente da defini¸c˜ao. Observemos que cada entrada gij(θ) pode ser escrita como

gij(θ) = 4 Z X  ∂ ∂θi pp(x; θ)   ∂ ∂θj pp(x; θ)  dx. De fato, gij(θ) = Z X ∂ ∂θi  log p(x; θ) ∂ ∂θj  log p(x; θ)p(x; θ)dx = Z X 1 p(x; θ) ∂p(x; θ) ∂θi 1 p(x; θ) ∂p(x; θ) ∂θj p(x; θ)dx =4 Z X 1 2pp(x; θ) ∂p(x; θ) ∂θi 1 2pp(x; θ) ∂p(x; θ) ∂θj dx =4 Z X  ∂ ∂θi pp(x; θ)   ∂ ∂θj pp(x; θ)  dx.

Assim, para todo θ e para todo v = (v1, . . . , vn)t∈ TθS, v 6= 0, segue que

vtGv =X i,j gijvivj =4X i,j Z X  vi ∂ ∂θi pp(x; θ)   vj ∂ ∂θj pp(x; θ)  dx =4 Z X X i vi ∂ ∂θi pp(x; θ) ! X j vj ∂ ∂θj pp(x; θ) ! dx =4 Z X X i vi ∂ ∂θi pp(x; θ) !2 dx≥ 0,

(24)

logo G(θ) ´e uma matriz definida n˜ao-negativa. Al´em disso, vtGv = 0⇔ Z X X i vi ∂ ∂θi pp(x; θ) !2 dx = 0⇔ X i vi ∂ ∂θi pp(x; θ) !2 = 0 ⇔X i vi ∂ ∂θipp(x; θ) = 0 ⇔ X i vi ∂p(x; θ) ∂θi = 0 ⇔ vi = 0, ∀ i = 1, . . . , n, e ∀ x ∈ X ,

uma vez que, pelas condi¸c˜oes de regularidade do modelo estat´ıstico S, o conjunto  ∂pθ

∂θ1

, . . . ,∂pθ ∂θn



´e linearmente independente. Logo G(θ) ´e n˜ao degenerada e consequentemente G(θ) ´e

definida positiva. 

A proposi¸c˜ao acima nos diz que a matriz de informa¸c˜ao de Fisher ´e uma m´etrica Riemanniana, tamb´em conhecida como m´etrica de Fisher. Portanto, segue que o modelo estat´ıstico S, munido da m´etrica Fisher, ´e uma variedade Riemanniana.

Exemplo 1.10. Seja o modelo estat´ıstico MH = {θ; θ = (µ, σ) ∈ R × (0, +∞)} das distribui¸c˜oes normais univariadas dado no Exemplo 1.5. A matriz de informa¸c˜ao de Fisher de MH em θ ´e dada por

G(θ) = 1 σ2 0 0 2 σ2 ! , (1.2)

ver referˆencia [18]. Logo, MH ´e uma variedade Riemanniana.

Os pr´oximos dois teoremas descrevem duas importantes propriedades da m´etrica de Fisher.

Teorema 1.11. [11] A m´etrica de Fisher ´e invariante em rela¸c˜ao `a reparametriza¸c˜ao do espa¸co amostral.

Demonstra¸c˜ao. Seja S = {pθ(x) = p(x, θ); θ ∈ Θ} um modelo estat´ıstico sobre X ⊆ Rn

e seja f : X → Y uma transforma¸c˜ao invert´ıvel que induz um modelo estat´ıstico Sf =

{qθ(y) = q(y, θ); y = f (x) e θ ∈ Θ} sobre Y ⊆ Rn. A rela¸c˜ao entre as fun¸c˜oes de

densidade e a aplica¸c˜ao f ´e dada por

(25)

1.2. M´etrica de Fisher 25 em que Jf(x) ´e a matriz Jacobiana da transforma¸c˜ao f . Dessa forma

log pθ(x) = log qθ(y) + log Det(Jf(x)),

diferenciado em rela¸c˜ao a θi, temos que

∂ ∂θi  log pθ(x)  = ∂ ∂θi  log qθ(y)  , (1.4)

i = 1, . . . , n, pois f n˜ao depende de θ. Assim, segue de (1.3) e (1.4) que

gij(θ) = Z X ∂ ∂θi  log pθ(x)  ∂ ∂θj  log pθ(x)  pθ(x)dx = Z X ∂ ∂θi  log qθ(y)  ∂ ∂θj  log qθ(y)  qθ(y) Det(Jf(x))dx = Z Y ∂ ∂θi  log qθ(y)  ∂ ∂θj  log qθ(y)  qθ(y)dy

e portanto segue a prova do Teorema. 

Teorema 1.12. [11] A m´etrica de Fisher ´e invariante em rela¸c˜ao `a reparametriza¸c˜ao do espa¸co dos parˆametros. Isto ´e, sejam θ = (θ1, . . . , θn) e ξ = (ξ1, . . . , ξn) dois sistemas de

coordenadas do modelo estat´ısticoS tais que θ = θ(ξ), ou seja, θi = θi(ξ1, . . . , ξn), e sejam

G(θ) e ˜G(ξ) as m´etricas de Fisher em rela¸c˜ao as coordenadas θ e ξ, respectivemente, ent˜ao vale ˜ gij(ξ) = gkr(θ) θ=θ(ξ) ∂θk ∂ξi ∂θr ∂ξj .

Demonstra¸c˜ao. Consideremos a distribui¸c˜ao ˜pξ(x) = pθ(ξ)(x), temos que

∂ ˜pξ(x) ∂ξi = ∂θk ∂ξi ∂pθ(x) ∂θk e ∂ ˜pξ(x) ∂ξj = ∂θr ∂ξj ∂pθ(x) ∂θr . Logo, ˜ gij(ξ) = Z X ∂ ∂ξi  log ˜pξ(x)  ∂ ∂ξj  log ˜pξ(x)  ˜ pξ(x)dx = Z X 1 ˜ pξ(x) ∂ ˜pξ(x) ∂ξi ∂ ˜pξ(x) ∂ξj dx = Z X 1 pθ(ξ)(x) ∂pθ(x) ∂θk ∂pθ(x) ∂θr dx ∂θk ∂ξi ∂θr ∂ξj =gkr(θ) θ=θ(ξ) ∂θk ∂ξi ∂θr ∂ξj .  Uma m´etrica Riemanniana sobre um modelo estat´ıstico S = {pθ(x); θ ∈ Θ}

(26)

igual `a m´etrica de Fisher. Esse importante resultado foi provado em 1972 por Chentsov em [17, Cap. 11].

Abaixo listamos dois dos principais resultados da teoria de informa¸c˜ao que est˜ao relacionados com a matriz de informa¸c˜ao de Fisher.

Entropia de Shannon

Em [8], Burbea e Rao mostram que a matriz de informa¸c˜ao de Fisher G(θ) pode ser vista como a matriz Hessiana da entropia de Shannon,

H(p) = Z p(x; θ) log p(x; θ)dx. Isto ´e, gij(θ) = ∂2H(p) ∂θi∂θj .

Limitante de Cram´er-Rao

Suponha que um conjunto de dados x foi gerado aleatoriamente, sujeito a uma distribui¸c˜ao de probabilidade a qual ´e desconhecida mas assumida pertencer a um modelo estat´ıstico S = {pθ; θ ∈ Θ}. Consideremos o problema de estimar o parˆametro

descon-hecido θ por uma fun¸c˜ao ˆθ(x) dos dados x. A aplica¸c˜ao ˆθ = (ˆθ1, . . . , ˆθn) : X → Rn

introduzida para esse prop´osito ´e chamada de estimador. Dizemos que ˆθ ´e um estimador n˜ao enviesado quando

Eθ( ˆθ(X)) = θ para todo θ ∈ Θ.

O erro m´edio de um estimador n˜ao enviesado ˆθ pode ser expresso como a matriz de covariˆancia

covθ( ˆθ) = Eθ



( ˆθ(X)− θ)( ˆθ(X)− θ)t

.

Uma quest˜ao a ser analisada ´e: o qu˜ao bom um estimador pode ser? De maneira independente, C. Rao em [49] e H. Cram´er em [20] resolveram esse problema, mais ou menos na mesma ´epoca, e determinaram o que ´e conhecido hoje como o limitante de Cram´er-Rao. Este limitante afirma que a variˆancia de qualquer estimador n˜ao enviesado ´e, pelo menos, maior que o inverso da informa¸c˜ao de Fisher. Um estimador que atinge esse limitante inferior ´e chamado de estimador eficiente.

Teorema 1.13 (Limitante de Cram´er-Rao). A matriz de variˆancia covθ( ˆθ) de um

esti-mador n˜ao enviesado ˆθ satisfaz covθ( ˆθ) ≥ G(θ)−1, isto ´e, a matriz covθ( ˆθ)− G(θ)−1 ´e

(27)

1.3. Distˆancia de Fisher-Rao 27

1.3

Distˆ

ancia de Fisher-Rao

Seja M uma variedade Riemanniana munida de uma m´etrica G = [gij(p)], p∈ M.

Consideremos (U, ϕ), U ⊂ Rn aberto, um sistema de coordenadas para M em torno do

ponto p tal que ϕ(x1, . . . , xn) = p, o elemento infinitesimal da m´etrica G ´e dado por

ds2 =

n

X

i,j=1

gij(p)dxidxj.

Seja γ uma curva diferenci´avel por partes em M , definida no intervalo [t1, t2],

conectando dois pontos p e q em M , isto ´e, γ(t1) = p e γ(t2) = q. O comprimento de arco

da curva γ ´e dado por

`(γ) = Z t2 t1 q hγ0(t), γ0(t)i G dt,

em quehu, viG= ut[gij(p)]v ´e o produto interno definido por G e u, v∈ TpM s˜ao vetores

coluna.

A distˆancia geod´esica entre dois pontos p e q em M ´e dada pelo menor comprimento de arco de uma curva γ conectando p e q. Essa curva ´e chamada de curva geod´esica.

Uma curva geod´esica γ em um sistema de coordenadas (U, ϕ), γ(t) = (x1(t), . . . , xn(t)),

´e dada pela solu¸c˜ao das equa¸c˜oes de Euler-Lagrange, d2x k dt2 + X i,j Γkij dxi dt dxj dt = 0, k = 1,· · · , n, (1.5) na qual Γk

ij s˜ao os s´ımbolos de Christoffel dados por

Γmij = 1 2 X k  ∂ ∂xi gjk+ ∂ ∂xj gki− ∂ ∂xk gij  gkm, (1.6)

em que [gij] ´e a matriz inversa de G.

Observemos que, por defini¸c˜ao, o vetor tangente γ0(t) tem comprimento constante

[15], isto ´e, kγ0(t) k2 = n X i,j=1 gij(γ(t)) dθi dt dθj dt = cte. (1.7)

Defini¸c˜ao 1.14. Seja o modelo estat´ıstico S = {pθ; θ ∈ Θ}. A distˆancia de Fisher-Rao

entre duas distribui¸c˜oes pθ1 e pθ2 em S, dF, ´e dada pelo menor comprimento de arco de

uma curva em Θ conectando θ1 e θ2.

(28)

pelas equa¸c˜oes (1.5) e pelas condi¸c˜oes de contorno (

γ(t1) = pθ1

γ(t2) = pθ2

. (1.8)

A distˆancia de Fisher-Rao foi introduzida por C. Rao em [49] como uma medida adequada para o c´alculo da distˆancia entre duas popula¸c˜oes. Na pr´atica ´e muito dif´ıcil o c´alculo da distˆancia de Fisher-Rao na maioria dos modelos estat´ısticos, uma vez que envolve a solu¸c˜ao de equa¸c˜oes diferenciais de segunda ordem. Em alguns casos podemos simplificar o c´alculo dessa distˆancia relacionando a m´etrica do espa¸co com a m´etrica de espa¸cos j´a conhecidos (por exemplo, os espa¸cos Euclidiano, hiperb´olico, e esf´erico). Atkinson e Mitchell [5] e Burbea [10] descreveram a distˆancia de Fisher-Rao entre algumas distribui¸c˜oes de probabilidade: distribui¸c˜ao de Poisson, Multinomial, Gamma, normal, entre outras. No Exemplo 1.18, descreveremos a distˆancia de Fisher-Rao no espa¸co das distribui¸c˜oes normais univariadas. A m´etrica de Fisher nesse espa¸co est´a relacionada com a m´etrica do espa¸co hiperb´olico e, portanto, existe uma f´ormula expl´ıcita para a distˆancia de Fisher-Rao. No caso do espa¸co formado por distribui¸c˜oes normais multivariadas, ainda n˜ao se tem uma f´ormula fechada para a distˆancia de Fisher-Rao no caso geral, como veremos no Cap´ıtulo 2.

Observa¸c˜ao 1.15. Neste texto, vamos nos referir `a distˆancia de Fisher-Rao entre as distribui¸c˜oes pθ1 e pθ2 como a distˆancia entre os pontos θ1 e θ2.

Notemos que, como a m´etrica de Fisher ´e invariante em rela¸c˜ao `a mudan¸ca de parametriza¸c˜ao, a distˆancia de Fisher-Rao tamb´em o ´e.

Nas defini¸c˜oes abaixo, introduzimos o conceito de subvariedade totalmente geod´esica. Defini¸c˜ao 1.16. Seja M uma variedade de dimens˜ao n. Quando N ´e um subconjunto de M e a inclus˜ao i : N → M ´e um mergulho (isto ´e, i ´e diferenci´avel e di(p) : TpN → Ti(p)M

´e injetiva para todo p∈ N) dizemos que N ´e uma subvariedade de M.

Defini¸c˜ao 1.17. Uma subvariedade N de uma variedade Riemanniana M ´e dita total-mente geod´esica quando toda geod´esica de N ´e geod´esica de M .

Exemplo 1.18 (Distˆancia entre duas distribui¸c˜oes normais univariadas). Voltemos ao modelo estat´ıstico MH = {θ; θ = (µ, σ) ∈ R × (0, +∞)} composto por distribui¸c˜oes normais univariadas, apresentado no Exemplo 1.5. Neste espa¸co, uma forma fechada para a distˆancia de Fisher-Rao ´e conhecida via uma associa¸c˜ao com o modelo do plano hiperb´olico, ver referˆencias [5], [10] e [18].

Pela matriz de informa¸c˜ao de Fisher em MH dada na equa¸c˜ao (1.2), segue que a

express˜ao da m´etrica em MH ´e dada por

ds2 = dµ2 + 2dσ2

(29)

1.3. Distˆancia de Fisher-Rao 29 Como a matriz da m´etrica no modelo do plano superior de Poincar´e, H2 ={(x, y) ∈

R2; y > 0}, ´e dada por

GP(x, y) = 1 y2 0 0 1 y2 ! , (1.9)

segue que a m´etrica emMH est´a relacionada com a m´etrica de H2 atrav´es da aplica¸c˜ao

f : MH → H2 (µ, σ)7→  µ √ 2, σ  . (1.10)

Logo, a distˆancia de Fisher-Rao entre os pontos (µ1, σ1) e (µ2, σ2) pertencentes a MH,

pode ser expressa em termos da distˆancia hiperb´olica de Poincar´e , dH2, como

dF((µ1, σ1), (µ2, σ2)) = √ 2dH2  µ1 √ 2, σ1  , µ√2 2, σ2  . Uma express˜ao anal´ıtica para dF por ser dada por, ver referˆencia [1],

dF((µ1, σ1), (µ2, σ2)) = √ 2 arccosh   1 +  µ1 √ 2, σ1  −µ2 2, σ2  2 2σ1σ2    (1.11)

em que |.| ´e a norma Euclidiana em R2.

As curvas geod´esicas de MH s˜ao as imagens inversas, por meio da transforma¸c˜ao

f , das curvas geod´esicas de H2. Essas geod´esicas s˜ao as semirretas verticais positivas e

as semi-elipses, centradas em σ = 0, com excentricidade 1

2. Resolvendo o sistema de

γ1 γ2

Figura 1.2: Geod´esicas de MH.

(30)

curva geod´esica γ : [0, 1]→ MH, tal que γ(0) = (µ1, σ1) e γ(1) = (µ2, σ2),dada por γ(t) =  µ1, σ1exp  log σ2 σ1  t  , se µ1 = µ2 (semirreta). Se µ1 6= µ2 (semi-elipse), γ(t) = c 2 4 √c 3tanh √c3(c2+ t)  2sgn(µ2− µ1) + c1, c4 s c2 4c3 cosh √c3(c2+ t) + 1 ! , na qual c1 = µ2 1− µ22+ 2σ21− 2σ22 2(µ1− µ2) , c2 =− tanh−1  µ1−c4 √ c2 4−2c4µ1+µ21+2σ12  tanh−1  µ1−c4 √ c2 4−2c4µ1+µ21+2σ21  − tanh−1  µ2−c4 √ c2 4−2c4µ1+µ21+2σ12  , c3 =4 tanh −1 µ1− c4 pc2 4− 2c4µ1+ µ21+ 2σ21 ! − tanh−1 µ2− c4 pc2 4− 2c4µ1+ µ21+ 2σ21 !!2 , c4 = (c2 4− 2c4µ1 + µ21+ 2σ12)1/4 c3 .

A Figura 1.3 ilustra a curva geod´esica que liga os pontos P = (−0.5, 1) e Q = (1, 1.5) no plano MH e a Figura 1.4 ilustra o gr´afico de algumas distribui¸c˜oes que est˜ao relacionadas com pontos dessa curva.

P

R Q

Figura 1.3: Curva geod´esica ligando P e Q.

P

R

Q

Figura 1.4: Gr´afico das distribui¸c˜oes normais.

SejaMHµ0 a subvariedade deMH formada pelas distribui¸c˜oes normais univariadas com m´edia constante, MHµ0 ={θ ∈ MH; µ = µ0 ∈ R constante}. A distˆancia de

(31)

Fisher-1.4. Curvaturas 31 Rao entre dois pontos (µ0, σ1) e (µ0, σ2) em MHµ0 ´e dada por

dµ0((µ0, σ1), (µ0, σ2)) = √ 2 log σ2 σ1  .

As curvas geod´esicas em MHµ0 s˜ao as semirretas verticais positivas e portanto, MHµ0 ´e

uma subvariedade totalmente geod´esica, ver Figuras 1.5 e 1.6. Ou seja, a distˆancia em Fisher-Rao restrita `a subvariedadeMHµ0 ´e igual a distˆancia na variedade MH, dµ0 = dF.

A B C

Figura 1.5: Reta ligando A e B.

A

B C

Figura 1.6: Gr´afico das distribui¸c˜oes normais. Consideremos agora a subvariedade MHσ0 formada pelas distribui¸c˜oes normais

univariadas com o mesmo desvio padr˜ao,MHσ0 ={θ ∈ MH; σ = σ0 ∈ (0, ∞) constante}.

A distˆancia de Fisher-Rao entre duas distribui¸c˜oes (µ1, σ0) e (µ2, σ0) em MHσ0 ´e

dσ0((µ1, σ0), (µ2, σ0)) =

|µ1− µ2|

σ0

.

A subvariedade MHσ0 n˜ao ´e totalmente geod´esica, ver Figura 1.7 . De fato, dados dois pontos (µ1, σ0) e (µ2, σ0), temos que

dF((µ1, σ0), (µ2, σ0)) = √ 2 log (µ1 − µ2) 2+ 4σ2 0 +|µ1− µ2|p(µ1− µ2)2+ 8σ02 4σ2 0 ! < |µ1− µ2| σ0 .

1.4

Curvaturas

Nesta se¸c˜ao, vamos relembrar as defini¸c˜oes de curvatura seccional e curvatura escalar.

(32)

M N

Figura 1.7: Distˆancia n˜ao geod´esica.

Dada uma m´etrica Riemanniana G = [gij] em uma variedade M , consideremos

(U, ϕ), U ⊂ Rn aberto, um sistema de coordenadas para M em torno do ponto p tal que

ϕ(x1, . . . , xn) = p.

Defini¸c˜ao 1.19. Seja E ∈ TpM um subespa¸co de dimens˜ao 2 do espa¸co tangente TpM e

sejam x, y ∈ E dois vetores linearmente independentes. Ent˜ao a curvatura seccional de E em p ´e dada por

K(E; x, y) = P i,j,k,lRijklxiyjxkyl P i,j,k,l(gikgjl− gilgjk)xiyjxkyl , em que Rijkl= X l Rl ijkgls

´e o tensor curvatura Riemanniana, no qual os termos Rl

ijk podem ser expressos em termos

dos s´ımbolos de Christoffel Rl ijk = X s Γs ikΓ l js− X s Γs jkΓ l is+ ∂ ∂xj Γl ik− ∂ ∂xi Γl jk.

A curvatura seccional ´e uma generaliza¸c˜ao natural da curvatura Gaussiana das superf´ıcies, quando M = Rn, K(E; x, y) = 0 para todo E [15]. Variedades Riemannianas

de curvatura seccional constante s˜ao as mais simples e suas propriedades j´a foram bastante estudadas, por exemplo, o espa¸co Euclidiano (K ≡ 0), a esfera unit´aria (K ≡ 1) e o espa¸co hiperb´olico (K ≡ −1). No Exemplo abaixo mostramos que a variedade MHtem curvatura constante igual a −1/2.

Exemplo 1.20. Voltemos `a variedade MH e consideremos a matriz da m´etrica de Fisher em MH, G, dada em (1.2). Como a variedade ´e de dimens˜ao 2, temos apenas uma curvatura seccional. Um c´alculo direto dos s´ımbolos de Cristoffel (1.6) associados `a essa m´etrica mostra que os ´unicos s´ımbolos n˜ao nulos s˜ao

Γ1 12= Γ 1 21=− 1 σ, Γ 2 11 = 1 2σ e Γ 2 22 =− 1 σ.

(33)

1.5. Divergˆencia de Kullback-Leibler 33 Logo, os ´unicos tensores de curvatura Riemanniana n˜ao nulos s˜ao

R1212 = R2121 =−

1

σ4 e R1221 = R2112 =

1 σ4.

Para x = (1, 0) e y = (0, 1), segue que

K(E, ; x, y) = R1212 g11g22 = −1/σ 4 2/σ4 =− 1 2.

Uma outra no¸c˜ao de curvatura bastante utilizada ´e a de curvatura m´edia, tamb´em conhecida como curvatura escalar.

Defini¸c˜ao 1.21. A curvatura escalar de uma variedade Riemanniana M ´e dada por

R =X

i,j

gijRij,

em que Rij s˜ao os tensores de Ricci dados por

Rik =

X

i,j

Rijksgsj.

1.5

Divergˆ

encia de Kullback-Leibler

A divergˆencia de Kullback-Leibler ou entropia relativa ´e uma das medidas de dis-similaridade entre distribui¸c˜oes mais utilizadas. Dadas duas distribui¸c˜oes de probabilidade p e q pertencentes a um mesmo modelo estat´ıstico a divergˆencia de Kullback-Leibler, DKL,

´e dada por

DKL(pkq) =          X xi∈X p(xi) log p(xi) q(xi) , se X ´e discreto Z X p(x) logp(x) q(x)dx, se X ´e cont´ınuo (1.12)

Dada uma distribui¸c˜ao p determinada a partir de um conjunto de observa¸c˜oes, pode-mos dizer que DKL mede a informa¸c˜ao perdida quando q ´e usada para aproximar p. A

divergˆencia de Kullback-Leibler n˜ao ´e uma distˆancia pois n˜ao satisfaz a condi¸c˜ao de sime-tria. Por isso, muitas vezes, uma vers˜ao simetrizada da divergˆencia ´e considerada. A divergˆencia de Kullback-Leibler simetrizada ´e definida por

DKL(θ1, θ2) =

1

2(DKL(θ1kθ2) + DKL(θ2kθ1)) .

Exemplo 1.22(Divergˆencia de Kullback-Leibler entre duas distribui¸c˜oes normais univari-adas). Dadas duas distribui¸c˜oes normais univariadas p1 = p(x; µ1, σ1) e p2 = p(x; µ2, σ2),

(34)

a divergˆencia de Kullback-Leibler entre elas ´e dada por, ver referˆencia [11], DKL(p1kp2) = 1 2  2 log σ2 σ1  +σ 2 1 σ2 2 + (µ1− µ2) 2 σ2 2 − 1  .

1.5.1

Rela¸

ao com a Distˆ

ancia de Fisher-Rao

A m´etrica de Fisher pode ser vista como uma aproxima¸c˜ao de segunda ordem da divergˆencia de Kullback-Leibler. As demostra¸c˜oes dos resultados apresentados nessa subse¸c˜ao podem ser encontradas em [11].

Proposi¸c˜ao 1.23. [11] Dado um modelo estat´ısticoS = {pθ; θ ∈ Θ}, seja ∆θi = θi−θ0i.

Ent˜ao DKL(pθkpθ0) = 1 2 X i,j gij(θ0)∆θi∆θj + o(|∆θ|2),

em que [gij(θ0)] ´e a matriz de informa¸c˜ao de Fisher dada em (1.1) e o(|∆θ|2) representa

a quantidade que tende a zero mais r´apido que |∆θ|2 quando ∆θ tende a zero.

Proposi¸c˜ao 1.24. [11] Sejam pθ1 e pθ2 duas distribui¸c˜oes pertencentes ao modelo

es-tat´ıstico S. Ent˜ao DKL(θ1kθ2) = 1 2d 2 F(θ1, θ2) + o(d2F(θ1, θ2)).

Corol´ario 1.25. [11] Sejam pθ1 epθ2 duas distribui¸c˜oes pertencentes ao modelo estat´ıstico

S e seja a divergˆencia de Kullback-Leibler simetrizada DKL(θ1, θ2) =

1

2(DKL(θ1kθ2) + DKL(θ2kθ1)). Ent˜ao

DKL(θ1, θ2) = d2F(θ1, θ2) + o(d2F(θ1, θ2)).

Considerando o modelo MH, ´e poss´ıvel escrever a divergˆencia de Kullback-Leibler em fun¸c˜ao da distˆancia de Fisher-Rao, ver referˆencia [18]. Dados dois pontos (µ, σ1) e

(µ, σ2), vimos no Exemplo 1.18 que a distˆancia de Fisher-Rao entre eles ´e dada por

d = dµ0((µ, σ1), (µ, σ2)) = √ 2 log σ2 σ1  . Sendo assim, segue que

DKL((µ, σ1)k(µ, σ2)) = 1 2  exp(√2d) + 2√d 2 − 1  e DKL((µ, σ1), (µ, σ2)) = exp(√2d) + exp(−√2d) 2 − 1.

(35)

1.5. Divergˆencia de Kullback-Leibler 35

1.5.2

Rela¸

ao com a Divergˆ

encia de Bregman

Seja F : Θ→ R+uma fun¸c˜ao diferenci´avel estritamente convexa, sobre um dom´ınio

convexo Θ⊂ Rn. A divergˆencia de Bregman, D

F, ´e definida por, ver referˆencia [45],

DF(θ1kθ2) = F (θ1)− F (θ2)− hθ1− θ2,∇F (θ2)i, (1.13)

em queh·, ·i ´e o produto interno usual do Rn e∇F (θ

2) ´e o vetor gradiente de F no ponto

θ2.

A divergˆencia de Bregman define uma fam´ılia de medidas de dissimilaridades. Por exemplo, quando F (θ) = n X i=1 θi2

a divergˆencia de Bregman ´e o quadrado da distˆancia Euclidiana.

Consideremos agoraS uma fam´ılia de distribui¸c˜oes exponencial, dada no Exemplo 1.6. Sejam p(x; θp) e p(x; θq) duas distribui¸c˜oes em S e seja F a fun¸c˜ao de log nomalizer

que determina a fam´ılia S. A divergˆencia de Kullback-Leibler entre p(x; θp) e p(x; θq) ´e

equivalente `a divergˆencia de Bregman com os parˆametros naturais trocados, isto ´e, DKL(p(x; θp)kp(x; θq)) = DF(θqkθp). (1.14)

(36)

Cap´ıtulo

2

Distribui¸

ao Normal Multivariada

Neste cap´ıtulo vamos fazer um estudo da distˆancia de Fisher-Rao no modelo es-tat´ıstico composto por distribui¸c˜oes normais multivariadas. Neste modelo uma f´ormula fechada para a distˆancia de Fisher-Rao no caso geral ainda n˜ao ´e conhecida.

Uma vari´avel aleat´oria X, X ⊂ Rn, segue uma distribui¸c˜ao normal multivariada

quando a sua fun¸c˜ao de densidade de probabilidade ´e definida por

p(x; µ, Σ) = (2π) −(n 2) pDet(Σ)exp  −(x− µ) tΣ−1(x − µ) 2  , em que xt = (x

1, . . . , xn)∈ Rn´e um vetor aleat´orio, µt = (µ1, . . . , µn) ∈ Rn ´e o vetor de

m´edias e Σ = [σij] ∈ Pn(R) ´e a matriz de covariˆancia (Pn(R) ´e o conjunto das matrizes

sim´etricas definidas positivas de ordem n). Seja M = {θ; θ = (µ, Σ) ∈ Rn× P

n(R)} o

modelo estat´ıstico formado por essas distribui¸c˜oes. Atrav´es da identifica¸c˜ao (µ, Σ)7→ (µ1, . . . , µn, σ11, . . . , σ1n, . . . , σkk, . . . , σkn, . . . , σnn)

temos que M ´e isomorfo a um subconjunto aberto de Rp, p = n + n(n+1) 2 , [54].

Ao longo do cap´ıtulo, descrevemos a distˆancia de Fisher-Rao em algumas subvar-iedades de M e apresentamos alguns algoritmos num´ericos que permitem o c´alculo da distˆancia de Fisher-Rao . Al´em disso, derivamos alguns limitantes para essa distˆancia.

2.1

Distˆ

ancia de Fisher-Rao

Seja a variedade estat´ıstica M = {θ; θ = (µ, Σ) ∈ Rn× P

n(R)}. Dado θ ∈ M a

(37)

2.1. Distˆancia de Fisher-Rao 37 matricial como gij(θ) = ∂µt ∂θi Σ−1∂µ ∂θj +1 2tr  Σ−1∂Σ ∂θi Σ−1∂Σ ∂θi  , (2.1) ver referˆencia [48].

Dado θ ∈ M, o espa¸co tangente de M em θ ´e o conjunto TθM = {(x, A); x ∈

Rn e A ∈ Sn(R)}, em que Sn(R) ´e o espa¸co das matrizes sim´etricas de ordem n com

entradas reais, [54]. Sejam V = (x, A) e W = (y, B) vetores pertencentes a TθM, o

produto interno no ponto θ = (µ, Σ) associado a matriz de informa¸c˜ao de Fisher G(θ), dada em (2.1), ´e hV, W iθ = xtΣ−1y+ 1 2tr(Σ −1 AΣ−1B). (2.2)

Logo, o elemento infinitesimal da m´etrica de Fisher pode ser expresso por ds2 = dµtΣ−1dµ + 1

2tr[(Σ

−1dΣ)2], (2.3)

na qual dµt = (dµ

1, . . . , dµn) ∈ Rn e dΣ ∈ Sn(R) ´e a matriz cujas entradas s˜ao as

derivadas da entradas correspondentes da matriz Σ, [54].

Uma importante propriedade da m´etrica de Fisher deM ´e que ela ´e invariante em rela¸c˜ao a transforma¸c˜oes afins. O resultado abaixo foi dado em [10] sem demonstra¸c˜ao, apresentamos uma prova do mesmo no Apˆendice A.

Teorema 2.1. Para todo(c, Q)∈ Rn× GL

n(R), em que Gln(R) ´e o espa¸cos das matrizes

invert´ıveis de ordem n, a aplica¸c˜ao

ψ(c,Q): M → M

(µ, Σ) 7→ (Qµ + c, QΣQt), (2.4)

estabelece uma isometria emM. Isto ´e, ψ(c,Q) ´e um difeomorfismo e, para todo θ∈ M e

U, V,∈ TθM, vale

hU, V iθ =hdψ(c,Q)(θ)· U, dψ(c,Q)(θ)· V iψ(c,Q)(θ). (2.5)

Corol´ario 2.2. A distˆancia de Fisher-Rao entre θ1 = (µ1, Σ1) e θ2 = (µ2, Σ2) em M

satisfaz

dF(θ1, θ2) = dF(ψ(c,Q)(θ1), ψ(c,Q)(θ2)) = dF((Qµ1+ c, QΣ1Qt), (Qµ2+ c, QΣ2Qt)), (2.6)

para todo(c, Q)∈ Rn× GL n(R).

Demonstra¸c˜ao. A prova desse corol´ario segue diretamente da defini¸c˜ao da distˆancia de

Fisher-Rao e da defini¸c˜ao de isometria. 

(38)

2.1 e que ser˜ao utilizadas ao longo desse cap´ıtulo. Antes de enunciarmos este resultado recordamos que a raiz quadrada de uma matriz A, denotada por A1/2ouA, ´e uma matriz

X tal que XX = A. Quando A ´e uma matriz diagonal, A1/2 ´e uma matriz diagonal tal

que cada elemento ´e a raiz quadrada do elemento correspondente da diagonal de A. Se A ´e uma matriz sim´etrica definida positiva ent˜ao, dada a sua decomposi¸c˜ao ortogonal A = OΛOt, em que O ´e uma matriz ortogonal cujas colunas s˜ao os autovetores de A e

Λ ´e uma matriz diagonal formada pelos autovalores de A, a raiz quadrada de A pode ser dada por A1/2 = OΛ1/2Ot.

Corol´ario 2.3. Sejam θ1 = (µ1, Σ1) e θ2 = (µ2, Σ2) e θ0 := (0, In), em que 0 ´e o vetor

nulo de dimens˜ao n e In ´e a matriz identidade de ordem n, pontos em M. Ent˜ao:

(i) Dada Σ1 = OΛ1Ot a decomposi¸c˜ao ortogonal da matriz Σ1, sejaΣ −1/2 1 = OΛ −1/2 1 Ot, segue que ψ1 = ψ −Σ−1/21 µ1,Σ−1/21  ´e uma isometria e dF(θ1, θ2) = dF(θ0, ψ1(θ2)), em que ψ1(θ2) = (Σ −1/2 1 (µ2− µ1), Σ −1/2 1 Σ2Σ −1/2 1 ), ver referˆencia [10].

(ii) Dada Σ1 = GGt a fatora¸c˜ao de Cholesky da matriz Σ1 segue que ψ2 = ψ(−G−1µ 1,G−1)

´e uma isometria e

dF(θ1, θ2) = dF(θ0, ψ2(θ2)),

em que ψ2(θ2) = (G−1(µ2− µ1), G−1Σ2G−t)

(iii) Considerando θ = (µ, Σ) = ψ1(θ2) ou θ = (µ, Σ) = ψ2(θ2) e Σ = OΛOt a

de-composi¸c˜ao ortogonal de Σ, segue que ψ3 = ψ(0,Ot)◦ ψi, i = 1, 2, ´e uma isometria

e

dF(θ1, θ2) = dF(θ0, ψ3(θ)),

onde ψ3(θ) = (Otµ, Λ).

(iv) Considerando θ = (µ, Σ) = ψ1(θ2) ou θ = (µ, Σ) = ψ2(θ2) e P uma matriz de

proje¸c˜ao ortogonal tal que P µ = kµkej, em que ej ´e um dos vetores canˆonicos do

Rn, segue que ψ4 = ψ(0,P )◦ ψi, i = 1, 2, ´e uma isometria e

dF(θ1, θ2) = dF(θ0, ψ4(θ)),

onde ψ4(θ) = (kµkej, P ΣPt).

Demonstra¸c˜ao. Para mostrar o item (i), observemos que Σ−(1/2)1 ´e invert´ıvel e pelo Teo-rema 2.1, a aplica¸c˜ao ψ1 = ψ

−Σ(−1/2)1 µ1,Σ−(1/2)1

 ´e uma isometria. Portanto segue do

Corol´ario 2.2 que d(θ1, θ2) = dF(ψ1(θ1), ψ1(θ2)) = dF((0, In), (Σ −(1/2) 1 (µ2− µ1), Σ −(1/2) 1 Σ2Σ −(1/2) 1 ).

(39)

2.1. Distˆancia de Fisher-Rao 39 No item (ii), como G ´e invert´ıvel, de forma an´aloga `a demonstra¸c˜ao do item (i), a aplica¸c˜ao ψ2 = ψ(−G−1µ

1,G−1) ´e uma isometria e

dF(θ1, θ2) = dF(ψ2(θ1), ψ2(θ2)) = dF((0, In), (G−1(µ2− µ1), G−1Σ2G−t).

Seja a isometria θ = ψi(θ2) = (µ, Σ), i = 1, 2, e seja Σ = OΛOt. Como O ´e uma

matriz ortogonal, pelo Teorema 2.1, ψ(0,Ot) ´e uma isometria e logo, segue do Corol´ario 2.2

que a isometria ψ3 = ψ(0,Ot)◦ ψi, i = 1, 2, ´e tal que

dF(θ1, θ2) =dF(ψ3(θ1), ψ3(θ2))

=dF(ψ(0,Ot)i0)), ψ(0,Ot)i2)))

=dF(ψ(0,Ot)0), ψ(0,Ot)(θ))

=dF((Ot0, OtO), (Otµ, OtOΛOtO))

=dF((0, In), (Otµ, Λ)),

logo mostramos o item (iii).

Finalmente, par mostrar o item (iv), observemos que, de forma an´aloga `a demon-stra¸c˜ao do item (iii), ψ4 = ψ(0,P )◦ ψi, i = 1, 2, ´e uma isometria e

dF(θ1, θ2) =dF(ψ4(θ1), ψ4(θ2)) =dF(ψ(0,P )(ψi(θ0)), ψ(0,P )(ψi(θ2))) =dF(ψ(0,P )(θ0), ψ(0,P )(θ)) =dF((P 0, P Pt), (P µ, P ΣPt)) =dF((0, In), (kµkej, P ΣPt)).  Observemos que a isometria ψ2´e mais barata de ser calculada computacionalmente,

uma vez que o c´alculo do fator Cholesky de uma matriz ´e mais barato que o c´alculo da sua decomposi¸c˜ao ortogonal. Esse fato torna-se mais evidente em dimens˜oes maiores. Na Se¸c˜ao 2.3.2 vamos utilizar os resultados acima para derivar alguns limitantes para a distˆancia de Fisher-Rao.

Exemplo 2.4.Consideremos duas distribui¸c˜oes normais bivariadas pθ1 e pθ2 parametrizadas,

respectivamente, por θ1 = −1 −1 ! , 1.25 0.43 0.43 0.75 !! e θ2 = 2 1 ! , 1.375 −0.65 −0.65 2.125 !! .

(40)

isometrias dadas no Corol´ario 2.3, a Figura 2.1(b) ilustra os gr´aficos e as curvas de n´ıvel das distribui¸c˜oes com parˆametros θ0,

ψ1(θ2) = −1 −1 ! , 1.75 −1.88 −1.88 3.92 !! e ψ2(θ2) = 2 1 ! , 1.1 −1.3 −1.3 4.57 !! .

Fazendo θ = ψ1(θ2), temos que

-4 -2 0 2 4 -2 0 2 4 Parâmetros θ1 θ2

(a) Gr´aficos e curvas de n´ıvel das distribui¸c˜oes normais bivariadas com parˆametros θ1 e θ2.

-4 -2 0 2 4 -2 0 2 4 Parâmetros θ0 ψ12) ψ22)

(b) Gr´aficos e curvas de n´ıvel das distribui¸c˜oes normais bivariadas com parˆametros θ0,

ψ1(θ2) e ψ2(θ2), dF(θ0, ψ1(θ2)) = dF(θ0, ψ2(θ2)). Figura 2.1 ψ3(θ2) = 0.33 −2.94 ! , 5 0 0 0.67 !! e ψ4(θ2) = 2.96 0 ! , 1.25 0.43 0.43 0.75 !! .

As curvas de n´ıvel das distribui¸c˜oes com parˆametros θ0 e ψ3(θ2) e com parˆametros θ0 e

ψ4(θ2), est˜ao ilustradas nas Figuras 2.2(a) e 2.2(b), respectivamente. Notemos que, pelo

Corol´ario 2.3, dF(θ1, θ2) = dF(θ0, ψi(θ2)), para todo i = 1, . . . , 4.

(41)

2.1. Distˆancia de Fisher-Rao 41 Parâmetros θ0 ψ32) -4 -2 0 2 4 6 -4 -2 0 2

(a) Curvas de n´ıvel das distribui¸c˜oes normais bivariadas com parˆametros θ0 e ψ3(θ2).

Parâmetros θ0 ψ42) -4 -2 0 2 4 6 -4 -2 0 2

(b) Curvas de n´ıvel das distribui¸c˜oes normais bivariadas com parˆametros θ0e ψ4(θ2).

Figura 2.2

γ(t) = (µ(t), Σ(t)). A curva γ ´e uma curva geod´esica de M se suas fun¸c˜oes coorde-nadas satisfazem as seguintes equa¸c˜oes [54]

         d2µ dt2 −  dΣ dt  Σ−1 dµ dt  = 0 d2Σ dt2 +  dµ dt   dµ dt t − dΣ dt  Σ−1 dΣ dt  = 0 . (2.7)

Essas equa¸c˜oes podem ser parcialmente integr´aveis como [25]      dµ dt = Σx dΣ dt = Σ(B− x t µ), (2.8)

em que (x, B)∈ TθM s˜ao as constantes de integra¸c˜ao.

Consideremos a mudan¸ca natural de parˆametros dada pela aplica¸c˜ao ϕ, definida em M, dada por

ϕ(µ(t), Σ(t)) = (δ(t), ∆(t)) = (Σ(t)−1µ(t), Σ(t)−1). O sistema de equa¸c˜oes diferenciais (2.8) torna-se

     d∆ dt =−B∆ + xδ t dδ dt =−Bδ + (1 + δ∆ −1 δ)x . (2.9)

(42)

Suponhamos que as equa¸c˜oes acima est˜ao sujeitas `as seguintes condi¸c˜oes iniciais      (δ(0), ∆(0)) = (δ0, ∆0)  dδ dt(0), d∆ dt (0)  = (x0,−B0), (2.10)

ou seja, a velocidade inicial da curva geod´esica no ponto (δ0, ∆0) ∈ M ´e (x0,−B0).

Observemos que as condi¸c˜oes (2.10) podem ser tomadas como      (δ(0), ∆(0)) = (0, In)  dδ dt(0), d∆ dt (0)  = (x,−B). (2.11)

De fato, seja ∆0 = GGt a decomposi¸c˜ao de Cholesky da matriz ∆0 e seja

(x, B) = (G−1x0, G−1B0G−t).

Seja (¯δ(t), ¯∆(t)) a curva geod´esica satisfazendo (2.11) e consideremos a isometria ψ = ψ(δ0,G), ent˜ao (δ(t), ∆(t)) = ψ(¯δ(t), ¯∆(t)) = (G¯δ(t) + δ0, G ¯∆(t)G

t) ´e a curva geod´esica

que satisfaz as condi¸c˜oes iniciais (2.10).

Eriksen [25] em 1986 e Calvo e Oller [13] em 1990 resolveram, independentemente, o problema de valor inicial dado pelas equa¸c˜oes (2.9) e (2.11). Eriksen descreveu a curva geod´esica em termos de uma aplica¸c˜ao exponencial, por´em ele n˜ao derivou uma f´ormula expl´ıcita para tal geod´esica. Por outro lado, Calvo e Oller resolveram um sistema de equa¸c˜oes diferencial muito mais geral e, dessa forma, encontraram uma f´ormula expl´ıcita para a curva geod´esica. Em [34] os autores conseguiram calcular a curva geod´esica atrav´es do resultado obtido por Eriksen e mostraram que a curva era a mesma dada em [13]. Essa f´ormula expl´ıcita ´e dada por

           δ(t) =− B(cosh(tG) − In)(G−)2x+ senh(tG)G−x ∆(t) =In+ 1 2(cosh(tG)− In) + 1 2B(cosh(tG)− In)(G − )2B −12senh(tG)G−B 1 2B senh(tG)G − , (2.12)

em que G2 = B2+ 2xxt e G´e a matriz inversa generalizada da matriz quadrada G, isto

´e, GG−G = G.

Como uma curva geod´esica tem velocidade constante em todo ponto, dado (x, B) TθM, a distˆancia de Fisher-Rao entre (0, In) e (δ(1), ∆(1)) ´e dada por

Z 1

0 pk(δ

0(t), ∆0(t))k dt =r 1

2tr(B

(43)

2.1. Distˆancia de Fisher-Rao 43 Mesmo com a solu¸c˜ao dada em (2.12), dados dois pontos θ1 = (µ1, Σ1) e θ2 =

(µ2, Σ2) em M, em geral, ainda n˜ao se tem uma f´ormula fechada para a distˆancia de

Fisher-Rao entre θ1 e θ2 e nem uma formula expl´ıcita para a curva geod´esica ligando

esses dois pontos. Para isso, ´e necess´ario resolver o problema de valor de contorno dado pelas equa¸c˜oes (2.7) e por

((µ(0), Σ(0)) = (µ1, Σ1)

(µ(1), Σ(1)) = (µ2, Σ2)

. (2.13)

Uma quest˜ao a ser abordada ´e se essa geod´esica existe.

Defini¸c˜ao 2.5. Uma variedade Riemanniana M ´e completa quando para todo p ∈ M, a aplica¸c˜ao exponencial, expp (a curva geod´esica partindo de p no instante t = 0), est´a definida para todo v∈ TpM . Isto ´e, se as geod´esicas γ(t) que partem de p est˜ao definidas

para todos os valores do parˆametro t∈ R.

Vimos que todo θ∈ M pode ser levado isometricamente para o ponto θ0logo, pela

solu¸c˜ao dada nas equa¸c˜oes (2.12), a curva γ(t) est´a definida para todo t∈ R e portanto segue queM ´e completa. Dessa forma, pelo Teorema de Hopf e Rinow [15, Cap. 7], para todo ponto θ1 e θ2 pertencente a M, existe uma curva geod´esica γ que liga esses pontos

e `(γ) = dF(θ1, θ2).

A seguir, descreveremos a distˆancia de Fisher-Rao e as curvas geod´esicas em algu-mas subvariedades de M.

2.1.1

A subvariedade

M

Σ0

onde

Σ

0

´

e constante

SejaMΣ0 ={θ ∈ M, Σ = Σ0 ∈ Pn(R) constante} a subvariedade de dimens˜ao n

composta pelas distribui¸c˜oes normais multivariadas com a mesma matriz de covariˆancia. A m´etrica de Fisher deMΣ0 ´e

ds2 = dµtΣ−1 0 dµ,

a qual, a menos da matriz constante Σ0 ´e essencialmente a m´etrica Euclidiana [5]. A

distˆancia de Fisher-Rao entre θ1 = (µ1, Σ0) e θ2 = (µ2, Σ0) ´e igual a

dΣ0(θ1, θ2) =

q

(µ1 − µ2)tΣ−10 (µ1− µ2). (2.14)

A distˆancia acima ´e igual a distˆancia dada por Mahalanobis [40] (chamada de distˆancia de Mahalanobis), um dos pioneiros no estudo de medidas de similaridade entre dados que tinham algum tipo de correla¸c˜ao.

Uma curva geod´esica tal que γ(0) = θ1 e γ(1) = θ2 em MΣ0 ´e dada por

(44)

Observemos que, assim como no caso univariado, a subvariedade MΣ0 n˜ao ´e totalmente

geod´esica [54].

Exemplo 2.6. Sejam duas distribui¸c˜oes bivariadas com parˆametros θ1 = ((−1, 0)t, Σ0) e

θ2 = ((6, 3)t, Σ0), em que Σ0 = 1.1 0.9 0.9 1.1 ! .

A Figura 2.3 ilustra a curva geod´esica em MΣ0 conectando essas distribui¸c˜oes: as

cur-vas em vermelho s˜ao as curcur-vas de n´ıveis das distribui¸c˜oes pθ1 e pθ2, as curvas em azul

representam algumas curvas de n´ıvel das distribui¸c˜oes por onde a curva geod´esica passa e, o segmento em cinza, representa a curva geod´esica no plano µ1× µ2. A distˆancia de

Fisher-Rao em MΣ0 entre os pontos θ1 e θ2 ´e dΣ0(θ1, θ2) = 8.06226.

-4 -2 0 2 4 6 8 10

-2 0 2 4

Figura 2.3: Curva geod´esica emMΣ0(segmento cinza) ligando duas distribui¸c˜oes normais

bivariadas com parˆametros θ1 = ((−1, 0)t, Σ0) e θ2 = ((6, 3)t, Σ0).

2.1.2

A subvariedade

M

µµµ0

onde

µ

µ

µ

0

´

e constante

Seja Mµ0 ={θ ∈ M; µ = µ0 ∈ R

n constante} ⊂ M a subvariedade de dimens˜ao n(n+1)

2 composta por distribui¸c˜oes com o mesmo vetor de m´edias µ0. A m´etrica de Fisher

nessa subvariedade ´e dada por

ds2 = 1

2tr[(Σ

−1

dΣ)2].

Essa m´etrica foi estudada por v´arios autores como, por exemplo, Siegel [53] atrav´es de matrizes Hermitianas e por Atkinson-Mitchell [5] e Burbea [10] atrav´es das subvar-iedades de M.

A distˆancia entre θ1 = (µ0, Σ1) e θ2 = (µ0, Σ2) ´e

d2 µ0(θ1, θ2) = 1 2 n X i=1 [log(λi)]2, (2.15)

(45)

2.1. Distˆancia de Fisher-Rao 45 em que 0 < λ1 ≤ λ2 ≤ · · · ≤ λn s˜ao os autovalores de Σ−11 Σ2.

Uma curva geod´esica γ(t) = (µ(t), Σ(t)) emMµ0 ligando dois pontos θ1 = (µ0, Σ1)

e θ2 = (µ0, Σ2) com γ(0) = θ1 e γ(1) = θ2 ´e dada por [43]

γ(t) = (µ0, Σ 1/2 1 exp(t log(Σ −1/2 1 Σ2Σ −1/2 1 ))Σ 1/2 1 ).

Novamente, assim como no caso univariado, a subvariedade Mµ0 ´e uma

subvar-iedade totalmente geod´esica [54]. Ou seja, toda curva geod´esica de Mµ0 ´e tamb´em uma

geod´esica de M. Assim, dµ0(θ1, θ2) = dF(θ1, θ2) para todo θ1, θ2 ∈ Mµ0.

Exemplo 2.7. Sejam duas distribui¸c˜oes bivariadas com parˆametros θ1 = ((0, 0)t, Σ1) e

θ2 = ((0, 0)t, Σ2), em que Σ1 = 1 0 0 8 ! e Σ2 = 8 0 0 1 ! .

Na Figura 2.4, as curvas em vermelho ilustram as curvas de n´ıveis das distribui¸c˜oes pθ1 e

pθ2 e as curvas em azul representam algumas curvas de n´ıvel das distribui¸c˜oes por onde a

curva geod´esica passa. Al´em disso dF(θ1, θ2) = 2.07944.

-4 -2 0 2 4 -4 -2 0 2 4

Figura 2.4: Curva geod´esica emMµ0 ligando duas distribui¸c˜oes normais bivariadas com

Referências

Documentos relacionados

Ap´os introduzirmos, no cap´ıtulo 1, algumas defini¸c˜oes b´asicas da geometria simpl´etica e dos espa¸cos de Hilbert, exibiremos, no cap´ıtulo 2, o conceito axiom´atico de

As instituições inquiridas antecipam ainda, para o mesmo período, um ligeiro aumento da procura de empréstimos por parte de empresas – excepto no que respeita aos empréstimos a

Para se melhor compreender o fenómeno da pulverização catódica á escala atómica pode-se elaborar uma estreita analogia entre esta situação e a que decorre durante as colisões

S ó poderão utilizar a Indicação Geográfica &#34;MAÇÃ DA COVA DA BEIRA&#34;os i produtores para o efeito autorizados pela Cooperativa Agrícola de Fruticultores da Cova da

Após a realização das dinâmicas, os participantes relataram quais dificuldades foram encontradas e como poderiam solucionar a questão da falta de acessibilidade, para garantir

Nota-se na Tabela 13 que o coeficiente de caminho, que representa uma reação causal entre os construtos, possui valores altos, que quanto mais próximo de +1.0, indica uma

Nesse sentido, o objetivo desse estudo é verificar as diferenças na Relevância da Informação Contábil no mercado de capitais entre os países pertencentes ao BRICS -

Europeia.. O presente regulamento é obrigatório em todos os seus elementos e diretamente aplicável em todos os Estados-Membros. Pela Comissão O Presidente.. Jean-Claude