• Nenhum resultado encontrado

Correntropia Circular: Definição, Propriedades e Aplicações

N/A
N/A
Protected

Academic year: 2022

Share "Correntropia Circular: Definição, Propriedades e Aplicações"

Copied!
72
0
0

Texto

(1)

UNIVERSIDADEFEDERALDO RIO GRANDE DO NORTE

UNIVERSIDADEFEDERAL DORIOGRANDE DO NORTE

CENTRO DETECNOLOGIA

PROGRAMA DEPÓS-GRADUAÇÃO EMENGENHARIA

ELÉTRICA E DECOMPUTAÇÃO

Correntropia Circular: Definição, Propriedades e Aplicações

Manoel do Bonfim Lins de Aquino

Orientador: Prof. Dr. Allan de Medeiros Martins

Tese de Doutorado apresentada ao Pro- grama de Pós-Graduação em Engenharia Elétrica e de Computação da UFRN (área de concentração: Engenharia de Computação) como parte dos requisitos para obtenção do título de Doutor em Ciências.

Natal, RN, Junho de 2022

(2)

Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede Aquino, Manoel do Bonfim lins de.

Correntropia Circular: definição, propriedades e aplicações/ Manoel do Bon- fim Lins de Aquino - 2022

59 f.: il.

Tese (Doutorado) - Universidade Federal do Rio Grande do Norte, Centro de Tecnologia, Programa de Pós Graduação em Engenharia Elétrica e de Computa- ção, Natal, 2022

Orientador: Dr. Allan de Medeiros Martins.

1. Correntropia circular - Tese. 2. Estatística circular - Tese. 3. Correntropia - Tese. 4. Estatística direcional - Tese. I. Martins, Allan de Medeiros. II. Título.

RN/UF/BCZM CDU 621.391

(3)

Correntropia Circular: Definição, Propriedades e Aplicações

Manoel do Bonfim Lins de Aquino

Tese de Doutorado aprovada em 30 de junho de 2022 pela banca examinadora composta pelos seguintes membros:

Prof. Dr. Allan de Medeiros Martins (Orientador) . . . UFRN

Prof. Dr. Joilson Batista de Almeida Rêgo (Examinador interno) . . . UFRN

Prof. Dr. Aluísio Igor Rego Fontes (Examinador externo) . . . IFRN

Prof. Dr. Guilherme de Alencar Barreto (Examinador externo) . . . UFC

Prof. Dr. João Paulo Ferreira Guimarães (Examinador externo) . . . IFRN

(4)

A persistência é o caminho do êxito.

Charles Chaplin

(5)

Agradecimentos

Aos meus colegas de grupo de pesquisa: Aluísio, João Paulo e Joilson, que compartilha- ram diretamente comigo da construção desse trabalho.

Ao meu orientador, Professor Allan, um exemplo de orientador, humildade e sabedoria.

Serei eternamente grato pelas lições que levarei para minha vida pessoal e profissional.

Aos Professores do PPGEEC que muito contribuíram com minha formação.

Aos meus pais e irmãos, pelo amor e suporte incontestáveis durante toda a minha vida.

À minha esposa Justina, pela paciência, amor e companheirismo de todas as horas.

Aos meus filhos Letícia e Augusto, pelo amor e inesgotável fonte de inspiração.

À Deus, pelo dom da vida.

Ao IFRN, por investir no desenvolvimento acadêmico do seu corpo docente e por me mostrar que é possível transformar vidas.

(6)

Resumo

A estatística circular tem sido aplicada a várias áreas do conhecimento nas quais os dados de entrada são de natureza circular. As medições com ruído ainda são um problema em aplicações com dados circulares e, assim como para dados não circulares, a estatís- tica de segunda ordem têm algumas limitações para lidar com ruídos não gaussianos.

Recentemente, uma função de similaridade chamada correntropia tem sido empregada com sucesso em aplicações envolvendo ruído impulsivo por ser capaz de extrair mais in- formações do que métodos que empregam estatística de segunda ordem. No entanto, a correntropia ainda não foi estudada na perspectiva de dados circulares. Nesta tese é de- finida uma nova medida estatística chamada correntropia circular (CC). Ela usa a função de densidade de von Mises para redefinir a correntropia neste domínio. Em particular, é comprovado analiticamente que a CC contém informações referentes aos momentos de segunda ondem e superiores, sendo uma generalização da medida de correlação circu- lar. As suas propriedades são estudadas bem como o seu desempenho enquanto função de custo no Critério de Máxima Correntropia Circular (Maximum Circular Correntropy Criterion– MCCC). O desempenho desta nova medida de similaridade é avaliado como uma função de custo em problemas de regressão não linear e predição de séries temporais, onde os sinais são contaminados com ruído impulsivo aditivo. As simulações demonstram que a CC é mais robusta do que estatísticas circulares de segunda ordem em ambientes de ruído impulsivo.

Palavras-chave: correntropia circular. estatística circular. correntropia. estatística direcional.

(7)

Abstract

Circular statistics has been applied to several areas of knowledge in which the input data is circular. Noisy measurements are still a problem in circular data applications and, like non-circular data, second-order statistics have some limitations to deal with non- Gaussian noise. Recently, a similarity function called correntropy has been successfully employed in applications involving impulsive noise for being capable of extracting more information than second-order methods. However, correntropy has not been studied from the perspective of circular data so far. This thesis defines a novel statistical measure called circular correntropy (CC). It uses the von Mises density function in order to redefine correntropy in this domain. In particular, it is proved analytically that the CC contains information regarding second-order and higher-order moments, being a generalization of the circular correlation measure. Its properties are studied as well as a new recursive solution for the Maximum Circular Correntropy Criterion (MCCC). The performance of this new similarity measure is evaluated as a cost function in nonlinear regression and time series prediction problems, where signals are contaminated with additive impulsive noise.

Simulations demonstrate that CC is more robust than second-order circular statistics in impulsive noise environments.

Keywords: circular correntropy. circular statistics. correntropy. directional statistics.

(8)

Sumário

Sumário i

Lista de Figuras iii

Lista de Tabelas v

Lista de Símbolos e Abreviaturas vi

1 Introdução 2

1.1 Motivação e relevância . . . 2

1.2 Objetivo . . . 4

1.3 Contribuições . . . 4

1.4 Organização do trabalho . . . 4

2 Fundamentação Teórica 6 2.1 Estatística Circular . . . 6

2.1.1 Distribuição circular de probabilidade . . . 9

2.1.2 Função densidade de probabilidade de von Mises . . . 11

2.1.3 Correlação circular . . . 13

2.1.4 Ruído impulsivo em ambiente circular . . . 14

2.2 Correntropia . . . 16

2.2.1 Definição . . . 17

2.2.2 Propriedades . . . 18

2.2.3 Critério de Máxima Correntropia . . . 19

3 Correntropia Circular 21 3.1 Estado da Arte . . . 21

3.2 Interpretação Probabilística . . . 22

3.3 Propriedades . . . 24

3.4 Critério de Máxima Correntropia Circular . . . 28

3.4.1 Análise de Kernel . . . 29

3.4.2 Generalização da função Correlação . . . 31

3.4.3 Espaço de probabilidade conjunta para dados circulares . . . 32

4 Aplicações 35 4.1 Aplicação de regressão para dados circulares . . . 36

4.2 Identificação de modelo de rotação de motores . . . 42 i

(9)

4.2.1 Regressão circular utilizando série de Fourier . . . 43 4.3 Predição de direção de ventos . . . 46

5 Conclusões 52

5.1 Lista de publicações . . . 53 5.1.1 Publicações relacionadas a esta tese . . . 53

Referências bibliográficas 54

(10)

Lista de Figuras

2.1 Distribuição de amostras sobre o círculo unitário e a respectiva direção média. . . 7 2.2 Representação de amostras sobre o círculo unitário para os dados da Ta-

bela 2.1. (a) dados brutos (b) amostras e a representação do vetor mφ equivalente indicando a direção média e a concentração das amostras. . . 8 2.3 Histograma circular para os dados da Tabela 2.1 . . . 9 2.4 Função de Bessel modificada de primeiro tipo e ordemn. . . 12 2.5 Representações de distribuições de von Mises e de suas amostras sobre o

circulo unitário para diferentes parâmetros de concentraçãoσ, (a)σ=0.5, (b)σ=5, (c)σ=10. . . 13 2.6 Dados de ruídos gerados a partir de uma distribuição alfa-estável para

valores deαvariando de 2 a 0,01. . . 15 2.7 Distribuição de probabilidade para ruído bimodal 0,8N(0,0,1) +

0,2N(π/2,0,1). . . 16 3.1 Comportamento da funçãokernelem função deδpara diferentes valores

deσ. . . 30 3.2 Comparação entre correlação, aproximação da correntropia para σ pe-

queno e correntropia para diferentes larguras de kernel, demonstrando que a correntropia circular generaliza estatísticas circulares de segunda ordem. Os gráficos foram redimensionados para ajustar o primeiro e o último valor da correlação a 1 e 0, respectivamente. . . 32 3.3 Espaço de probabilidade conjunta para duas variáveis definidas como Θ

eΦ=aΘ+N(0,0,05), paraa=1. A representação é mostrada no plano e no toroide, respectivamente. . . 33 3.4 Espaço de probabilidade conjunta para duas variáveis definidas como Θ

eΦ=aΘ+N(0,0,05), paraa=2. A representação é mostrada no plano e no toroide, respectivamente. . . 34 4.1 Espaço de probabilidade conjunta paraθ eΦ. (a) estatística de segunda

ordem (b) CC paraσ=50. . . 36 4.2 WSNR como função dos coeficientesmeβpara o algoritmo MSE. . . 38 4.3 WSNR como função dos coeficientesmeβpara correntropia circular com

largura dekernelσ=0,8. . . 39 4.4 WSNR como função dos coeficientesmeβpara correntropia circular com

largura dekernelσ=1,5. . . 39

iii

(11)

4.5 WSNR como função dos coeficientesmeβpara correntropia circular com largura dekernelσ=2. . . 40 4.6 Comparação de desempenho de correntropia para diferentes tamanhos de

kernele MSE em termos de WSNR. . . 41 4.7 Desvio padrão para o WSNR na Figura 4.6. . . 41 4.8 Modelo que representa a posição do eixo do motor em rotação em função

do tempo. . . 42 4.9 Regressão do modelo que representa a posição do eixo do motor em rota-

ção. Curva vermelha utilizando o critério de máxima correntropia circular e curva verde utilizando o MSE. . . 44 4.10 Regressão do modelo que representa a posição do eixo do motor em rota-

ção, considerando 20% deoutliers. Curva vermelha utilizando o critério de máxima correntropia circular e curva verde utilizando o MSE. . . 45 4.11 Erro médio quadrático para identificação do sistema em função do nível

de outliers. Curva vermelha utilizando o critério de máxima correntropia circular e curva verde utilizando o MSE. . . 46 4.12 Série temporal utilizada no problema de predição de um passo [Di Marzio

et al. 2012] em azul apresenta-se o conjunto de treinamento e em verme- lho o conjunto de teste. . . 47 4.13 Predição para o problema de direções de ventos da referência [Di Marzio

et al. 2012]. Curva vermelha utilizando o método MSE e a curva azul utilizando o critério de máxima correntropia circular. . . 48 4.14 Histograma da distribuição de erros de predição para correntropia circular. 48 4.15 Histograma da distribuição de erros de predição para o método MSE. . . . 49 4.16 Predição para o problema de direções de ventos da referência [Di Marzio

et al. 2012] com as amostras contaminadas com 20% deoutliers. . . 50 4.17 Histograma da distribuição de erros de predição para correntropia circular

com as amostras contaminadas com 20% deoutliers. . . 50 4.18 Histograma da distribuição de erros de predição para o método MSE com

as amostras contaminadas com 20% deoutliers. . . 51

(12)

Lista de Tabelas

2.1 Direção em graus de 76 tartarugas após desova. [Mardia e Jupp 2009]. . . 7 4.1 Coeficientes de massa e β usados nas simulações para cada algoritmo

avaliado. . . 38

v

(13)

Lista de Símbolos e Abreviaturas

MCC Maximum Correntropy Criterion (Critério de Máxima Correntropia)

MCCC Maximum Circular Correntropy Criterion (Critério de Máxima Correntropia Circular) PDF Probability Density Function

(Função Densidade de Probabilidade) WSNR Weight Signal to Noise Ratio

( Relação Sinal-ruído Ponderada)

vi

(14)

Notação

Esta tese utiliza o seguinte padrão de notação:

• Escalares são escritas por letras minúsculas em itálico:a;

• Constantes e variáveis aleatórias são representadas por letras maiúsculas:B;

• Vetores são representados por letras minúsculas em negrito:c;

• Utilizam-se sempre vetores coluna;

• Matrizes são escritas usando letras maiúsculas em negrito:D;

• O superescrito(⋅)T é usado para indicar transposição de matrizes e vetores;

1

(15)

Capítulo 1 Introdução

Neste capítulo são apresentadas as linhas gerais deste trabalho, ressaltando-se a re- levância do problema estudado, os objetivos desejados e a organização proposta para o documento.

1.1 Motivação e relevância

Dados circulares podem ser encontrados na natureza em fenômenos como movimen- tos migratórios de animais, direção de ventos, rotação de máquinas, ou produzidos arti- ficialmente por dispositivos físicos como bússola, ponteiros de relógio, biruta, teodolito, entre outros. Esses sinais são comumente representados como valores angulares em graus ou radianos em relação a uma origem arbitrária no sentido horário ou anti-horário [Stienne et al. 2014]. Nesse sentido, em estatística circular cada ângulo define um ponto sobre uma circunferência de raio unitário, assim como cada valor de uma variável real define um ponto sobre a linha dos reais. Mais formalmente, podemos dizer que uma circunferência de raio unitário é o suporte para dados circulares, assim como a reta dos reais é suporte para dados reais [Mardia e Jupp 2009]. Dessa forma, uma variável real aumenta seu valor absoluto à medida que se afasta da origem, e é fácil perceber que 360está próximo de 350 mas relativamente distante da origem. No entanto, para o caso circular, devido a natureza periódica dos dados, uma amostra em 360 está relativamente próxima a 350 e exatamente sobre a origem. Para deixar esse fato mais claro, tomemos um exemplo com duas amostras posicionadas num circulo unitário em 10 e 350, respectivamente, o cálculo da média aritmética resulta em 180, no entanto a direção média entre essas observações é claramente 0. Dessa forma, percebe-se que a estatística circular tem suas peculiaridade e portanto necessita de métodos estatísticos específicos para tratar dados dessa natureza.

Vários trabalhos têm apresentado conceitos específicos para a representação e análise de dados circulares, por exemplo, histogramas circulares e lineares, diagramas de rosas, distribuições de dados, como distribuições uniformes e von Mises, medidas de locali- zação, concentração, dispersão e similaridade como média, variância, correlação, entre outras [Mardia e Jupp 2009, Pewsey et al. 2013, Jammalamadaka e Sengupta 2001], que serão exploradas no capítulo 2. Ao longo dos anos foram alcançados relevantes avanços nesse ramo da estatística e publicados trabalhos em diferentes áreas do conheci-

2

(16)

CAPÍTULO 1. INTRODUÇÃO 3 mento como: meteorologia [Carta et al. 2008, Alshqaq et al. 2021], biologia [Morellato et al. 2010], migração animal [Mutwiri 2015], medicina [Drew e Doucet 1991, Karai- brahimoglu, Adnan and Ayhan, Seren and Karaagac, Mustafa and Artac, Mehmet 2021], eventos temporais [Brunsdon e Corcoran 2006, Leguia, Marc G and Rao, Vikram R and Kleen, Jonathan K and Baud, Maxime O 2021], entre outros. No entanto, esses tipos de aplicações não são isentos de degradação por ruídos e outliers[Agostinelli 2007, Mah- mood et al. 2017] e essas técnicas podem não funcionar satisfatoriamente em ambientes com ruídos impulsivos, necessitando de ferramentas estatísticas mais robustas. Neste contexto propõe-se aplicar o conceito de correntropia que é uma medida de similari- dade, baseada em kernel, capaz de extrair dos dados infinitos momentos estatísticos de ordem par, sendo uma generalização do conceito de correlação, inicialmente proposta por [Santamaria et al. 2006]. Define-se como kernel qualquer função de ponderação que mede similaridade entre duas observações e que seja simétrica e positiva definida [James et al. 2013]. Outra característica importante desta medida é que ela fornece me- lhor desempenho quando comparada com métodos de segunda ordem ao lidar com ruído não gaussiano, como ambientes com ruído impulsivo [Fontes et al. 2017, Liu, Tao and Qiu, Tianshuang and Luan, Shengyang 2018, Jang, Hoon-Seok and Muhammad, Mannan Saeed and Kang, Min-Koo 2020, Yue, Pengcheng and Qu, Hua and Zhao, Jihong and Wang, Meng 2020, Guo et al. 2021, Zhao, Ji and Zhang, J Andrew and Li, Qiang and Zhang, Hongbin and Wang, Xueyuan 2021, Araújo et al. 2019, Fontes et al. 2015, Gui- marães et al. 2018, Zhou, EL and Xia, BY and Li, Eric and Wang, TT 2022a]. Devido a tais características, a correntropia tem sido aplicada com sucesso em muitos problemas práticos em que há presença de ruídos impulsivos, tais quais: extração de característi- cas temporais de ordem superior [Santana et al. 2012, Bakhshali et al. 2020], reconhe- cimento facial [He, Zheng e Hu 2011], filtragem adaptativa [Chen et al. 2014], classi- ficação [Cao et al. 2018], reconhecimento de padrões [He, Zheng, Hu e Kong 2011], análise de componentes principais [He, Hu, Zheng e Kong 2011], estimação de ruído impulsivo [Zhang et al. 2014, Jin, Fangxiao and Qiu, Tianshuang and Luan, Shengyang and Cui, Wei 2019, Zhu, Yingying and Zhao, Haiquan and Zeng, Xiangping and Chen, Badong 2020, Lu, Lu and Zhao, Haiquan 2017, Zhou, EL and Xia, BY and Li, Eric and Wang, TT 2022b], filtros de Kalman [Jang, Hoon-Seok and Muhammad, Mannan Saeed and Kang, Min-Koo 2020, Nanda, Sumanta Kumar and Kumar, Guddu and Bhatia, Vimal and Singh, Abhinoy Kumar 2021, Dang et al. 2019],clustering[Hao et al. 2015], reconhe- cimento de patologias vocais [Fontes et al. 2014], problemas de amostragem compressiva em ambientes de ruído impulsivo [Guimarães et al. 2019, Yicong He and Fei Wang and Shiyuan Wang and Jiuwen Cao and Badong Chen 2019], dentre outros. No entanto, a aplicação da correntropia ao domínio circular ainda não foi explorada ou definida.

Nesse contexto, esse trabalho tem como objetivo propor uma nova medida de similari- dade aplicada a dados circulares definida como correntropia circular (CC), que é baseada na definição clássica da correntropia, mas usando a função de densidade de von Mises como função kernel no estimador baseado na técnica de janelamento de Parzen. Após definir a medida, são apresentadas algumas propriedades importantes que também estão presentes na correntropia definida por [Santamaria et al. 2006] como simetria, resposta limitada e positiva, interpretação probabilística, estimador consistente e não viesado, den-

(17)

CAPÍTULO 1. INTRODUÇÃO 4 tre outras. Mostra-se também que a CC generaliza o conceito de correlação circular pois contém infinitos momentos estatísticos de ordem par. Este é um resultado significativo, porque fornece uma maneira eficiente de analisar ambientes de segunda e de ordem supe- rior com o mesmo esforço computacional que o da correlação. Em seguida é apresentada uma análise sobre o comportamento da medida em relação a largura dokernelutilizado e resultados que demonstram o desempenho da medida em aplicações com ruído não gaussiano.

1.2 Objetivo

O objetivo desta tese é fornecer o embasamento teórico necessário para que o conceito de correntropia possa ser definida e aplicada a problemas no domínio dos dados circulares.

1.3 Contribuições

Destaca-se as seguintes contribuições desta tese:

• Este trabalho define uma nova medida de similaridade entre variáveis aleatórias circulares, denominada Correntropia Circular;

• Propriedades dessa nova medida são estudadas para mostrar que a correntropia circular herda características importantes da correntropia definida por [Santamaria et al. 2006];

• É definido o critério de máxima correntropia circular (Maximum Circular Corren- tropy Criterion- MCCC), que estuda o uso da correntropia circular enquanto função custo;

• Mostra-se soluções a partir do MCCC, usando gradiente ascendente otimizado;

• São apresentados resultados para aplicações em ambiente com ruído impulsivo e demostrado o desempenho da medida.

1.4 Organização do trabalho

Esta tese está organizada em cinco capítulos. Além dessa introdução, é apresentada no capítulo 2, uma fundamentação teórica abordando conceitos fundamentais sobre esta- tística circular e a medida Correntropia. No capítulo 3 é definida a medida de similaridade Correntropia circular, apresentadas propriedades e sua aplicação enquanto função custo.

Em seguida são apresentados resultados no capítulo 4: Inicialmente é feita uma análise do espaço de probabilidade conjunta para variáveis aleatórias circulares que representam direções de ventos medidas na cidade de Porto Alegre, no ano de 2016 na presença deou- tlierse em seguida, a nova medida é aplicada a problemas de identificação de sistemas e predição para dados reais de direções de ventos conforme problema proposto no trabalho

(18)

CAPÍTULO 1. INTRODUÇÃO 5 [Di Marzio et al. 2012]. Por fim, são apresentadas as conclusões no capítulo 5, bem como perspectivas sobre trabalhos futuros.

(19)

Capítulo 2

Fundamentação Teórica

Este capítulo apresenta uma fundamentação teórica necessária para o entendimento dessa tese. Inicialmente são apresentados conceitos sobre estatística circular, abordando formas de representações gráficas para dados circulares, variáveis aleatórias circulares, distribuição de probabilidade circular, função densidade de probabilidade de von Mises e algumas medidas estatísticas como média, variância e correlação. Em seguida, é apresen- tada a medida de similaridade denominada correntropia e algumas de suas propriedades que serão estendidas para o caso circular, e seu uso como função custo.

2.1 Estatística Circular

Pode-se entender estatística circular como uma área da estatística que lida com dados periódicos que assumem valores em um intervalo de [−π,π), os quais podem ser repre- sentados por um vetor unitário ou como pontos sobre uma circunferência de raio unitário.

Dessa forma, o suporte para uma variável aleatória circular é qualquer arco de compri- mentos 2πnum círculo unitário, assim como a reta dos reais ou um intervalo contido nela é o suporte para uma variável aleatória definida nos reais. [Pewsey et al. 2013, Fernández- Durán 2007].

Como consequência da periodicidade dos dados, medidas como média e variância não são tão simples quanto suas contrapartes associadas a estatística clássica [Mardia e Jupp 2009]. Como os valores agora variam apenas dentro do intervalo de−πaπ, não é possível contar com momentos estatísticos clássicos que seriam sensíveis aos limites de integração sobrepostos. Para demonstrar essa peculiaridade, na Figura 2.1 é ilustrado uma variável aleatória com quatro amostras sobre o círculo unitário, posicionadas em 10, 20, 340, 3500, e o vetor direção médiamφapontando para 0. Nesse exemplo, o cálculo da média aritmética levaria a um equívoco já que a direção média das amostras não é 180 e sim 0. Portanto, medidas estatísticas como média e variância precisam ser redefinidas para lidar adequadamente com variáveis circulares [Mardia e Jupp 2009, Pewsey et al. 2013].

6

(20)

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 7

0 /2

3 /2

Figura 2.1: Distribuição de amostras sobre o círculo unitário e a respectiva direção média.

Além da definição de medidas estatísticas próprias para tratar dados circulares, são apresentadas formas usuais para representação de distribuições circulares normalmente utilizados na literatura.

Para ilustrar essas formas de representações são apresentadas na tabela 2.1 as direções tomadas por 76 tartarugas após realizar a desova [Mardia e Jupp 2009] e em seguida traçados diferentes gráficos representativos desse evento.

Tabela 2.1: Direção em graus de 76 tartarugas após desova. [Mardia e Jupp 2009].

Direção em graus a partir da origem

8 9 13 13 14 18 22 27 30 34

38 38 40 44 45 47 48 48 48 48

50 53 56 57 58 58 61 63 84 84

64 63 65 68 70 73 78 78 78 83

83 88 88 88 90 92 92 93 95 96

98 100 103 106 113 118 138 153 153 155 204 215 223 228 237 238 243 244 250 251 257 268 285 319 343 350

Na Figura 2.2a é apresentado a representação das amostras sobre o círculo unitário.

Esse resultado pode ser usado para visualizar como as amostras estão distribuídas ao longo da circunferência unitária. Já na Figura 2.2b são apresentadas as mesmas amostras sobre a circunferência, no entanto, apresenta-se o vetor direção média mφ em que a sua fase indica a direção média das amostras e a norma indica a concentração dos dados, quanto mais próximo de 1 maior a concentração das amostras naquela direção.

(21)

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 8

(a) (b)

Figura 2.2: Representação de amostras sobre o círculo unitário para os dados da Tabela 2.1. (a) dados brutos (b) amostras e a representação do vetormφequivalente indicando a direção média e a concentração das amostras.

Outra representação útil é o diagrama de rosas que consiste em um histograma cir- cular traçado sobre uma circunferência. Nesse caso, as barras do histograma circular são substituídas por setores. A área de cada setor é proporcional à frequência no grupo correspondente. A Figura 2.3 mostra o diagrama de rosas para os dados da Tabelta 2.1.

(22)

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 9

0 /2

3pi/2 0

2 4

6

Figura 2.3: Histograma circular para os dados da Tabela 2.1 .

2.1.1 Distribuição circular de probabilidade

Uma distribuição circular é uma distribuição de probabilidade cuja probabilidade total é concentrada na circunferência. Tal distribuição é uma forma de atribuir probabilidades em diferentes direções, na qual cada ponto na circunferência representa uma direção de- finindo assim uma distribuição direcional [Jammalamadaka e Sengupta 2001]. As variá- veis aleatórias circulares, geralmente medidas em radianos, são distribuídas no intervalo de[0,2π)ou[−π,π)[Mardia e Jupp 2009].

Uma maneira de especificar uma distribuição no círculo unitário é por meio de sua fun- ção de distribuição e densidade de probabilidades. Como veremos, várias propriedades válidas para as funções de distribuição e densidades de probabilidades aplicadas a estatís- tica na reta também são válidas para o caso circular. No entanto, devido as peculiaridades impostas pela periodicidade dos dados, deve-se atentar para dois pontos: O primeiro é que a definição da função de distribuição circular depende da escolha da direção e orientação inicial, o segundo, devido ao fato de que Θ e Θ+2nπ, n∈Z correspondem ao mesmo ponto na circunferência, logo deve-se garantir que para qualquer valor deΘ sobre a reta dos reais, a distribuição circular deve ser periódica. Dessa forma, pode-se definir uma função de distribuição circular como segue:

F(θ) =P(0<Θ≤θ), 0≤θ≤2π, F(θ+2π) −F(θ) =1, −∞ ≤θ≤ ∞

(2.1) A equação 2.1 garante que qualquer arco no círculo unitário, de comprimento 2π, tem probabilidade igual a um, já que esse arco compreende toda a circunferência do círculo

(23)

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 10 unitário, logoF(θ)é uma função crescente e sua diferença no suporte da função é 1.

Se a função de distribuição circularF(θ)é absolutamente contínua então ela possui uma função densidade de probabilidade fΦ(φ)tal que [Mardia e Jupp 2009]:

β

α

fΦ(φ)dφ=F(β) −F(α), −∞ <α≤β< ∞ (2.2) Uma função fΦ(φ)é a função de densidade de probabilidade de uma distribuição de probabilidade absolutamente contínua se e somente se:

(i) fΦ(φ) ≥0;

(ii)

π

−π

fΦ(φ)dφ=1;

(iii) fΦ(φ) = fΦ(φ+2π)

Assim como a estatística na reta, é desejável descrever uma distribuição através de momentos, no caso circular em termos de momentos trigonométricos. A partir da defini- ção de função característica da variável aleatóriaΦtem-se [Mardia e Jupp 2009]:

E{eitΦ} =

π

−π

eitφfΦ(φ)dφ, (2.3)

Como Φ é uma variável aleatória periódica, então deve ter a mesma distribuição que (Φ+2π), logo sua função característica pode ser definida da seguinte forma:

E{eitΦ} =E{eit(Φ+2π)} =E{eitΦ}eit2π, (2.4) essa relação é verdadeira, desde queE{eitΦ} =0 oueit=1, como a primeira condição não é muito útil, assumi-se que t necessariamente deve ser um inteiro, levando eit= 1. Dessa forma, pode-se definir a função característica como uma sequência infinita de números complexos{mΦn ∶n=0,±1,±2, ...}dada por [Mardia e Jupp 2009, Pewsey et al.

2013]:

mΦn =E{ei nΦ} =

π

−π

ei nφfΦ(φ)dφ, n=0,±1,±2, ... (2.5) o número complexomΦn é o n-esimo momento trigonométrico deΦem torno da direção zero, e pode ser representado por [Mardia e Jupp 2009, Pewsey et al. 2013]:

mΦnn+iβn;

αn=E[cos(nφ)]; βn=E[sin(nφ)]; n∈Z; ρ=

α2n2n; µ=tan−1n

αn ),

(2.6)

(24)

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 11 sendo µ o ângulo de direção média e ρ o comprimento médio resultante, que denota quão concentrados os dados estão. Com base nesse resultado, pode-se definir a variância comov=1−ρ[Mardia e Jupp 2009, Jammalamadaka e Sengupta 2001]. Dessa forma, 0≤v≤1 representa a dispersão dos dados, caso v=0 significa que todas amostras então posicionadas na direçãoµ, caso v=1 significa que a distribuição é tão dispersa que não há nenhuma direção principal.

2.1.2 Função densidade de probabilidade de von Mises

Os dados associados às funções de densidade de probabilidade em estatística circular devem ser limitados ao intervalo [−π, π) ou [0 , 2π). Existem várias distribuições de probabilidades que podem ser usadas para representar dados circulares. Dentre ela, se- gundo [Fisher et al. 1993], a distribuição de von Mises é umas das mais usuais por suas características similares a uma distribuição gaussiana. Por esse motivo, a distribuição de von Mises é por vezes chamada de distribuição circular normal. Nesse trabalho, iremos utilizar essa distribuição como função kernel no estimador de probabilidade baseado na técnica de janelamento de Parzen, pois essa função obedece as condições de simetria e de ser positiva definida. A distribuição de probabilidade de von Mises [Mardia e Jupp 2009]

tem função densidade de probabilidade definida por:

Mσ(φ∣µ,σ) =eσcos(φ−µ) 2πI0(σ)

, (2.7)

na qual o parâmetroµé a média circular da variável aleatória que possui uma distribuição de von Mises, e σé o parâmetro relacionado à variância dessa variável aleatória. I0 é a função de Bessel modificada de primeiro tipo e ordem zero. A função de Bessel modifi- cada de primeiro tipo e ordemné definida pela equação (2.8) e apresenta comportamento conforme gráfico 2.4 .

In(x) = 1 2π

0

cos(nθ)excos(θ)dθ=

r=0

( x 2)

2r+n

( 1

r!(r+n)!). (2.8)

(25)

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 12

1 2 3 4 5

0 1 2 3 4 5 6 7

Figura 2.4: Função de Bessel modificada de primeiro tipo e ordemn.

A distribuição de von Mises se assemelha à distribuição gaussiana, quandoσé sufici- entemente grande, a distribuição de von Mises se concentra em torno de um ânguloφ=µe tende à distribuição gaussiana com médiaφe variância 1/σ, de outro modo se assemelha a uma distribuição uniforme quando σ se aproxima de zero, ou seja limσ→0Mσ =1/2π . Na Figura 2.5a foram traçadas curvas para a distribuição de von Mises com diferentes valores deσe média zero, enquanto nas Figuras 2.5b a 2.5d são apresentadas essas distri- buições ao longo do círculo unitário. Percebe-se que à medida que se aumenta os valores deσcresce a concentração das amostras em torno da direção média, enquanto ao reduzir o valor deσas amostram vão se distribuindo mais uniformemente ao longo da circunfe- rência. Percebe-se também que o módulo do vetor direção médiamφcresce à medida que aumenta a concentração em torno da média.

(26)

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 13

(a) (b)

(c) (d)

Figura 2.5: Representações de distribuições de von Mises e de suas amostras sobre o circulo unitário para diferentes parâmetros de concentraçãoσ, (a) σ=0.5, (b)σ=5, (c) σ=10.

2.1.3 Correlação circular

Em estatística circular, a correlação é uma medida muito importante que tem sido uti- lizada em diversas áreas do conhecimento, que incluem biologia [Kitamura et al. 1981], processamento de sinais [Pakula e Kay 1986], neurociência [Kempter et al. 2012], dentre outras aplicações que necessitam medir a associação de duas variáveis aleatórias circu- lares. Um conceito de correlação muito utilizado é o coeficiente de correlação de Fisher [Fisher e Lee 1983], que é dado por

(27)

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 14

Corr(Φ,Θ) = E[sin(Φ−µΦ)sin(θ−µθ)]

E[sin2(Φ−µΦ)]E[sin2(θ−µθ)]

=

E[cos2((Φ−µΦ)−(Θ−µ2 Θ)) −cos2((Φ−µΦ)+(Θ−µ2 Θ))]

E[sin2(Φ−µΦ)]E[sin2(θ−µθ)]

,

(2.9)

no qualΦandΘsão variáveis aleatórias circulares definidas no intervalo de−πaπeµΦΘsão as direções angulares médias paraΦandΘ, respectivamente.

2.1.4 Ruído impulsivo em ambiente circular

Como forma de avaliar o desempenho de algoritmos de otimização, normalmente os submetemos a dados contaminados por ruídos. Nesta tese, tem-se o interesse de avaliar a correntropia circular em ambientes com ruídos não gaussianos, já que espera-se que a correntropia consiga obter melhores resultados que os métodos de segunda ordem nesses cenários. Nesse sentido, pode-se usar duas estratégias para gerar as distribuições não gaussianas: através de uma função densidade de probabilidade com duas modas (bimodal) ou através de uma distribuição de cauda longa.

Distribuição alfa estável em ambiente circular

Uma distribuição muito utilizada para simulação de ruídos impulsivos e gaussianos é a distribuição alfa estável de Lévy [Samorodnitsky e Taqqu 1994]. Essa distribuição é caracterizada por quatro parâmetros: índice de estabilidade(0≤α≤2), parâmetro de assimetria (−1≤β≤1), parâmetro de escala (σ≥0) e um parâmetro de deslocamento (µ∈R) [Samorodnitsky e Taqqu 1994]. A forma mais comum de introduzir variáveis aleatórias com essa distribuição é através de sua função característica:

E[exp(jθX)] =exp

⎧⎪

⎪⎪

−σα∣θ∣α(1−jβsign(θ)tanπα

2 ) +jµθ

⎫⎪

⎪⎪

, (2.10)

seα≠1, e

E[exp(jθX)] =exp

⎧⎪

⎪⎪

−σ∣θ∣ (1− 2jβ

π sign(θ)ln∣θ∣) +jµθ

⎫⎪

⎪⎪

, (2.11)

seα=1. A função sign é definida como sign(u) =

⎧⎪

⎪⎪

⎪⎪

⎪⎩

−1 u<1, 0 u=0, 1 u>1.

(2.12) O índice de estabilidadeαé responsável por controlar o quão impulsivo será o ruído.

Caso α=2 a distribuição toma a forma de uma gaussiana, caso α se aproxime de zero maior vai ser a cauda da distribuição e portanto, mais impulsiva. O parâmetroβcontrola

(28)

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 15 a assimetria, obtendo-se uma distribuição simétrica quandoβ=0. O parâmetroµcontrola o deslocamento [Samorodnitsky e Taqqu 1994], nesse trabalho será analisado o caso em queµ=0. Através dos ajustes dos parâmetros acima, consegue-se simular, por exemplo, dois casos especiais de distribuições: Normal (α=2,β=µ=0) e Cauchy (α=1,β=µ=0), que serão mostrados na Figura 2.6.

0 -1 0.5

1 -0.5

1 1.5

0.5 104

0 2

0 2.5

3

-0.5 0.5 -1 1

= 2 Círculo unitário

(a)

0 -1 0.5

1 -0.5

1 1.5

0.5 104

0 2

0 2.5

3

-0.5 0.5 -1 1

= 1.2 Círculo unitário

(b)

0 -1 0.5

1 -0.5

1 1.5

0.5 104

0 2

0 2.5

3

-0.5 0.5 -1 1

= 0.4 Círculo unitário

(c)

0 -1 0.5

1 -0.5

1 1.5

0.5 104

0 2

0 2.5

3

-0.5 0.5 -1 1

= 0.01 Círculo unitário

(d)

Figura 2.6: Dados de ruídos gerados a partir de uma distribuição alfa-estável para valores deαvariando de 2 a 0,01.

Com base na distribuição definida acima, foi realizada a sua implementação em am- biente circular conforme apresentado na Figura 2.6. Observou-se que a medida queα se aproxima de zero, a distribuição se torna muito impulsiva levando a ocorrência de valores de grande magnitude. No entanto, devido a distribuição dos dados circulares no intervalo de[−π,π), esses valores aleatórios que ultrapassam esse intervalo circulam ao longo da circunferência gerando uma distribuição uniforme. Esse comportamento, pode ser ob- servado na Figura 2.6 na qual para α=2 tem-se o comportamento de uma distribuição circular normal, enquanto paraα=0,01 tem-se um comportamento de uma distribuição

(29)

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 16 uniforme. Dessa forma, nesse trabalho, a distribuição alfa estável não foi utilizada para simular ambiente de ruido impulsivo.

Distribuição bimodal

Uma maneira de simular ruído impulsivo é através de uma distribuição bimodal for- mada pela soma de duas distribuições normais ponderadas pelo percentual de dados con- centrados em cada moda. Nesse caso, a notaçãoN (µ,σ)representa uma distribuição nor- mal com médiaµe variânciaσ2eλN (µ11) + (1−λ)N (µ22), determina o percentual de dados concentrados sobre as modas, no qual o parâmetroλé definido como 0≤λ≤1.

A Figura 2.7 mostra a distribuição bimodal definida por 0,8N (0,0,1) +0,2N (π/2,0,1), com 80% dos dados concentrados sobre a moda de média 0 e desvio padrão 0,1 e 20%

dos dados sobre a moda de médiaπ/2 e desvio padrão 0,1.

0 2000

1 4000 6000 8000

0 -1

0 -0.5 -1 1 0.5

0,8N(0; 0,1) + 0,2N( /2; 0,1) Círculo unitário

Figura 2.7: Distribuição de probabilidade para ruído bimodal 0,8N(0,0,1) + 0,2N(π/2,0,1).

Dessa forma, nesse trabalho as simulações para medir o desempenho da correntropia circular em ambiente com ruído impulsivo, será realizada através de distribuições bimo- dais, já que consegue-se garantir que as amostras simuladas não extrapolem o intervalo [−π,π).

2.2 Correntropia

A correntropia é uma medida de similaridade proposta por Santamaria [Santamaria et al. 2006] que generaliza a medida de correlação entre duas variáveis aleatórias. No entanto, essa medida além de extrair informações estatísticas de segunda ordem, conse- gue extrair informações de momentos estatísticos de ordens superiores sem aumento de

(30)

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 17 custo computacional. Nessa seção é apresentada uma revisão teórica sobre correntropia, iniciando por sua definição e algumas propriedades que, nesta tese, serão estendidas para o domínio circular. Será dado um enfoque especial na propriedade da interpretação pro- babilística, já que essa abordagem foi utilizada como base para a dedução da correntropia circular, principal contribuição dessa tese. Por fim, a correntropia é apresentada como função custo para aplicações em problemas de aprendizagem de máquinas.

2.2.1 Definição

Correntropia é uma medida de similaridade generalizada definida como [Santamaria et al. 2006]:

Vσ(X,Y) =E{κσ(X,Y)}, (2.13) na qualX eY são variáveis aleatórias reais arbitrárias,E[.] é o operador de valor espe- rado,κσ(.)é qualquer função kernel definida positiva eσé um parâmetro livre chamado largura de kernel. A equação (2.13) também pode ser escrita na forma:

Vσ(X,Y) = x

κσ(X,Y)fXY(x,y)dxdy, (2.14) na qual fXY(x,y)é a função de densidade de probabilidade conjunta (PDF) obtida deX e Y.

Devido a algumas propriedades interessantes, uma função bastante utilizada na litera- tura como kernel é a gaussiana definida como:

Gσ(x,y) = 1

2πσexp(−

(x−y)2

2 ), (2.15)

aplicando 2.15 em 2.14 tem-se Vσ(X,Y) =

x

Gσ(X,Y)fXY(x,y)dxdy. (2.16) No entanto, na maioria da aplicações práticas a função densidade de probabilidade conjunta de X eY é desconhecida e apenas um número finito de amostras {(xi,yi)}N

i=1

estão disponíveis. Nesses casos, é possível estimar a correntropia entreX eY como [Liu et al. 2007a]

N,σ(X,Y) = 1 N

N

i=1

Gσ(xi,yi), (2.17)

o símbolo ˆ(⋅) é sempre utilizado na presente tese para indicar estimações, nesse caso, da correntropia entreX eY.

Vale salientar que, ao estimar a correntropia, deve-se selecionar o valor do tamanho do kernelσ. Esse valor pode assumir qualquer valor positivo [Principe 2010], sendo assim, um parâmetro livre.

(31)

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 18

2.2.2 Propriedades

As propriedades da correntropia foram exploradas inicialmente no trabalho [Santamaria et al. 2006]. Já [Liu et al. 2007a] reorganizou-as e foi complementado em [Principe 2010].

São apresentadas algumas propriedades da correntropia para duas variáveis aleatórias re- ais que serão expandidas para o domínio dos dados circulares no capítulo 3.

Propriedade 1: Parakernelssimétricos, a correntropia também é simétrica:

Vσ(X,Y) =EXY[kσ(X,Y)] =EY X[kσ(Y,X)] =Vσ(Y,X) (2.18) Propriedade 2: Para o kernelgaussiano, a correntropia é positiva e limitada. A sua estimação, ˆVσ, é sempre limitada entre zero, menor valor possível, e 1/√

2πσ, maior valor que só é atingido quandoX=Y.

0≤Vˆσ(X,Y) ≤ 1

2πσ (2.19)

Propriedade 3: Para o kernelgaussiano, a correntropia é a soma ponderada de infi- nitos momentos estatísticos de ordem par. A Equação (2.20) mostra a expansão em série de Taylor da correntropia usando okernelgaussiano. Nesse caso, paraσsuficientemente grande, os momentos estatísticos de segunda ordem prevalecem e diz-se que a correntro- pia generaliza a correlação.

Vσ(X,Y) = 1

√ 2πσ

n=0

(−1)n

2nσ2nn!EXY[(X−Y)2n]. (2.20) Propriedade 4:A interpretação probabilística para correntropia, estabelece que usando okernelgaussiano com tamanhoσtendendo a zero, a correntropia se aproxima do valor da densidade de probabilidade associada ao eventoX=Y.

σ→0limVσ(X,Y) = ∫ fXY(x,x)dx. (2.21) O detalhamento dessa propriedade se faz necessário, pois é de suma importância para o desenvolvimento dessa tese, pois no capítulo 3 será tratada a similaridade entre variáveis aleatórias circulares a partir do prisma da interpretação probabilística. Nesse sentido, deseja-se mostrar que calcular a correntropia, V(X,Y), entre duas variáveis aleatórias reaisX eY é equivalente a estimar a densidade de probabilidade do eventoX=Y.

P(X=Y) =

−∞

−∞

fXY(x,y)δ(x−y)dxdy. (2.22) Na maioria dos casos, a distribuição fXY(x,y) é desconhecida e apenas um número finito de amostras (xn,yn),n=1,2, ...N está disponível. Assumindo que dados indepen- dentes e identicamente distribuídos (xi;yi)N

i=1 são amostrados da distribuição conjunta fXY, pode-se estimar a densidade de probabilidade ˆfXY por

(32)

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 19

XY(x,y) = 1 N

N

n=1

Gσ(x−xn)Gσ(y−yn), (2.23) substituindo (2.23) em (2.22), obtêm-se:

P(Xˆ =Y) =

−∞

−∞

1 N

N

n=1

Gσ(x−xn)Gσ(y−yn)δ(x−y)dxdy (2.24) Uma vez que apenas valores diferentes de zero ocorrem ao longo da bissetriz do es- paço conjunto (por causa da função delta),x=y=u, pode-se reescrever a Equação (2.24) da seguinte forma:

P(Xˆ =Y) = 1 N

N

n=1

−∞

Gσ(u−xn)Gσ(u−yn)du, (2.25) na qualué o valor assumido porxeyna linhax=y.

Como a convolução de gaussianas resulta também numa gaussiana com o tamanho de kernelσ

2. A Equação (2.25) pode ser escrita como [Principe 2010]:

P(Xˆ =Y) = 1 N

N

n=1

G(xn−yn). (2.26)

Propriedade 4.1: Assumindo que dados independentes e identicamente distribuídos {(xi,yi)N

i=1} são amostrados da distribuição conjunta fxy, enquanto ˆfσxy é a estimação de Parzen com tamanho dekernel σ, a correntropia estimada com o tamanho dekernel σ

2 corresponde à integral de ˆfσxy sobre a linhax=y[Principe 2010].

σ(X,Y) =

−∞

σXY(x,y)du∣

x=y=u (2.27)

Propriedade 5: Estimador consistente e não enviesado: Sejam X e Y variáveis ale- atórias com densidade de probabilidade conjunta fXY(x,y), sob as condições N→ ∞, Vˆσ(X,Y)é um estimador consistente em erro médio quadrado deVσ(X,Y). Além disso, sob as condiçõesNσ→ ∞eσ→0, ˆVσ(X,Y)é um estimador assintoticamente não envie- sado de fXY(x=y)e consistente em erro médio quadrado [Principe 2010].

2.2.3 Critério de Máxima Correntropia

Uma das principais aplicações da correntropia é como função custo em problemas de aprendizagem de máquinas, para tanto é definido o critério de máxima correntropia. Con- siderando um modelo linear e definindo o vetor erroe=d−y, como a diferença entre um sinal desejadode uma saída estimaday=wTX, ondee,d,y∈Rn,w∈Rm, ondemé o nú- mero de pesos, eX∈Rm×n. Dessa forma, considera-se o critério de máxima correntropia (Maximum Correntropy Criterion-MCC) como

(33)

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 20

JMCC=V(D,Y) =E[kσ(D,Y)], (2.28) Nesse caso, deseja-se encontrar qualwmaximiza a correntropia entreD eY. Em outras palavras, deseja-se maximizar a probabilidade deDser igual aY ou que o erroe=d−y seja zero através da busca de umwótimo.

maxw JMCC (2.29)

Essa função custo vem sendo aplicada a diversos trabalhos [Li et al. 2007, Bessa et al. 2009], obtendo resultados superiores a métodos de segunda ordem, sobretudo em aplicações com ruídos não gaussianos. Vale salientar que o método é sensível à escolha da largura dokernelσe geralmente o vetor de pesoswé computado interativamente através do método de gradiente ascendente.

Para o caso utilizando umkernelgaussiano de larguraσ, pode-se aplicar o critério de máxima correntropia da seguinte forma:

JMCC=E[Gσ(d−y)] (2.30)

Computando-se a estimativa deJMCC, têm-se:

JMCC= 1

√ 2πσ.1

N

N

i=1

exp(−

(di−yi)2

2 ) (2.31)

JMCC= 1

√ 2πσ.1

N

N

i=1

exp(−(di−wTxi)2

2 ), (2.32)

ondexié ai–ésima coluna da matrizX,xi=X(⋅,i).

Para determinar maxJMCC utiliza-se o gradiente ascendente e determina-se os valores dewque maximizam a função.

w(n+1) =w(n) +µ▽Jn (2.33)

w(n+1) =w(n) + µ N

√ 2πσ3

N

i=1

exp(−

e2i

2)eixi (2.34) na qualei=di−wT(n)xi. Usando o gradiente instantâneo:

w(n+1) =w(n) + µ N

2πσ3exp(−

e(n)2

2 )e(n)x(n), (2.35) ondee(n) =d(n) −wT(n)x(n), ex(n)é an-ésima coluna da matrizX,xn=X(⋅,n).

Nesse capítulo foram apresentados conceitos fundamentais de estatística circular, como definição de variáveis aleatórias, distribuição de probabilidade e momentos estatísticos circulares, que constituem fundamentos teóricos essenciais ao entendimento dessa tesa.

Em seguida foi apresentada a medida estatística de similaridade correntropia, sua defini- ção e principais propriedades, que mais tarde serão estendidas para o caso circular.

(34)

Capítulo 3

Correntropia Circular

Nesse capitulo é definida uma nova medida estatística de similaridade para o domínio dos dados circulares chamada de correntropia circular, possibilitando portanto, a aplica- ção do conceito de correntropia ao universo dos dados circulares. Também são apresenta- das propriedades dessa nova medida e definido o critério de máxima correntropia circular, que utiliza a CC como função custo e possibilita a utilização da medida em problemas de otimização. Em seguida é apresentada uma análise sobre o comportamento da correntro- pia em função da largura dekernelσe demonstrado que a medida em estudo generaliza a estatística de segunda ordem. Por fim, é apresentado um estudo sobre o espaço de pro- babilidade conjunta para dados circulares. Será possível entender melhor a definição de correntropia pela ótica da interpretação probabilística e evidenciar algumas peculiaridades da estatística circular.

3.1 Estado da Arte

A medida correntropia foi definida em 2006 [Santamaria et al. 2006] por um grupo de pesquisadores do Laboratório de Computação em Neuro Engenharia (CNEL) localizado nos Estados Unidos. Como discutido no capítulo anterior, essa nova medida possibi- litou avançar em várias aplicações de processamento de dados, sobretudo em ambien- tes submetidos a ruídos não gaussianos nos quais há a necessidade de aplicar estatística de alta ordem. Sendo amplamente utilizada nos últimos anos em trabalhos de diferen- tes áreas, tais quais: extração de características temporais de ordem superior [Santana et al. 2012, Bakhshali et al. 2020], reconhecimento facial [He, Zheng e Hu 2011], fil- tragem adaptativa [Chen et al. 2014], classificação [Cao et al. 2018], reconhecimento de padrões [He, Zheng, Hu e Kong 2011], análise de componentes principais [He, Hu, Zheng e Kong 2011], estimação de ruído impulsivo [Zhang et al. 2014, Jin, Fangxiao and Qiu, Tianshuang and Luan, Shengyang and Cui, Wei 2019, Zhu, Yingying and Zhao, Haiquan and Zeng, Xiangping and Chen, Badong 2020, Lu, Lu and Zhao, Haiquan 2017, Zhou, EL and Xia, BY and Li, Eric and Wang, TT 2022b], filtros de Kalman [Jang, Hoon-Seok and Muhammad, Mannan Saeed and Kang, Min-Koo 2020, Nanda, Sumanta Kumar and Kumar, Guddu and Bhatia, Vimal and Singh, Abhinoy Kumar 2021, Dang et al. 2019], clustering [Hao et al. 2015], reconhecimento de patologias vocais [Fontes et al. 2014], problemas de amostragem compressiva em ambientes de ruído impulsivo [Guimarães

21

(35)

CAPÍTULO 3. CORRENTROPIA CIRCULAR 22 et al. 2019, Yicong He and Fei Wang and Shiyuan Wang and Jiuwen Cao and Badong Chen 2019]. No entanto, a referida medida havia sido definida apenas para o domínio dos reais havendo a limitação de aplicá-la a problemas que envolviam dados além dos reais, como são os casos de variáveis complexas e circulares. Nesse contexto, foi defi- nida a Correntropia Complexa [Guimarães et al. 2018] por um grupo de pesquisadores da UFRN, o que possibilitou a aplicação direta da medida a problemas que envolvem dados complexos, mostrando-se também vantajosa em relação as técnicas estatísticas conven- cionais, principalmente em aplicações com cenários não gaussianos. Nesse sentido, essa tese propõe desenvolver a partir da interpretação probabilística da correntropia, uma nova medida estatística de similaridade aplicada ao domínio circular e estender as propriedades e vantagens dessa medida também para esse campo da estatística.

3.2 Interpretação Probabilística

Nesta seção, será aplicada a abordagem da interpretação probabilística para definição da correntropia circular. Dessa forma, será utilizada a mesma metodologia apresentada na seção 2.2.2 para o caso da correntropia nos reais, que consiste em aplicar o método do estimador de Parzen para estimar a PDF conjunta entre duas variáveis aleatórias. Sendo assim, é possível estimar a correntropia entre duas variáveis aleatóriasΘeΦcalculando- se o valor da densidade de probabilidade associada ao eventoΘ=Φ.

Com base na definição de correntropia apresentada em (2.13), pode-se definir a cor- rentropia para variáveis aleatórias circulares como:

Cσ(Θ,Φ) =E{kσ(Θ,Φ)}, (3.1) na qual Θ eΦ são variáveis aleatórias definidas no intervalo[−πaπ) eσ é o parâmetro que define a largura da funçãokernel k, a função dekerneldeve ser simétrica e definida positiva. Para obter talkernel, aplica-se a interpretação probabilística [Liu et al. 2007b, Weifeng Liu et al. 2006].

Nesta abordagem, calcular a correntropia entre duas variáveis aleatóriasΘeΦé equi- valente a estimar a densidade de probabilidade do eventoΘ=Φ=ψ.

Cσ(Θ,Φ) =P(Θˆ =Φ) =

π

−π

fΘ,Φ(θ,φ)∣θ=φ=ψdψ (3.2) Na maioria dos casos, apenas um número finito de amostras está disponível. Então, para modelar a densidade de probabilidade conjunta fΘΦ(θ,φ) é utilizado o método da janela de Parzen [Parzen 1962]. Nesse trabalho foi utilizada a função de densidade de von Mises, definida na Equação (2.7), como janela de Parzen, já que obedece as propri- edades da simetria, é uma função positiva definida e tem características similares a uma gaussiana, função amplamente utilizada na correntropia para o caso de dados reais. Dessa forma, a densidade de probabilidade conjunta fΘΦ(θ,φ)pode ser estimada por:

ΘΦ(θ,φ) = 1 N

N

i=1

Mσ(θ−θi)Mσ(φ−φi). (3.3)

(36)

CAPÍTULO 3. CORRENTROPIA CIRCULAR 23 Substituindo a densidade de probabilidade conjunta estimada em (3.3) na equação (3.2) tem-se

σ(Θ,Φ) =

π

−π

ΘΦ(ψ,ψ)dψ

=

π

−π

1 N

N

i=1

Mσ(ψ−θi)Mσ(ψ−φi)dψ.

(3.4)

Usando a equação (2.7) tem-se:

σ(Θ,Φ) = 1 4Nπ2I02(σ)

N

i=1 π

−π

eσ(cos(ψ−θi)+cos(ψ−φi))dψ. (3.5) A integral na equação (3.5) pode ser solucionada através das relações definidas em (3.6) a (3.9).

cos(ψ−θi) +cos(ψ−φi) =cos(ψ) (cos(θi) +cos(φi)) +sin(ψ) (sin(θi) +sin(φi)), (3.6) como 0≤φii≤2π, pode-se representar (3.6) em termos de amplitude e fase de um vetor no círculo unitário, dessa forma,

cos(ψ−θi) +cos(ψ−φi) =Aicos(ψ+Bi), (3.7) na qual a amplitudeAie a faseBisão dadas, respectivamente por (3.8) e (3.9):

Ai=

(cos(θi) +cos(φi))2+ (sin(θi) +sin(φi))2

=2

1+cos(θi−φi)

2 =2 cos(θi−φi 2 )

(3.8)

Bi= −tan−1(

sin(θi) +sin(φi) cos(θi) +cos(φi)

). (3.9)

Dessa forma, pode-se reescrever (3.5) em termos deAieBicomo:

R=

π

−π

eσAicos(ψ+Bi)dψ=

π−Bi

−π−Bi

eσAicos(ψ)dψ, (3.10)

como o argumento no integrando é periódico, com período 2π, a equação (3.10) pode ser definida como

R=

0

eσAicos(ψ)dψ, (3.11)

esse termo no integrando pode ser identificado como a função de Bessel modificada de

(37)

CAPÍTULO 3. CORRENTROPIA CIRCULAR 24

primeiro tipo e ordem zero [Mardia e Jupp 2009], que pode ser reescrito como R=2πI0(2σcos(θi−φi

2 )) (3.12)

finalmente, a equação (3.13) fornece um estimador para a correntropia circular definida em (3.1) para finitas amostras, que sob as condições deN→ ∞, ˆCN,σ(Θ,Φ)é um estima- dor consistente e não enviesado paraCN,σ(Θ,Φ).

σ(Θ,Φ) = 1 N

N

i=1

I0(2σcos(θi−φ2 i)) 2πI02(σ)

≈E{κσ(Θ,Φ)}, (3.13) sendokσ(Θ,Φ)definido como:

kσ(Θ,Φ) =

I0(2σcos(Θ−Φ2 )) 2πI02(σ)

. (3.14)

Dessa forma, o conceito de correntropia pode ser estendido para aplicações envol- vendo dados circulares, o que possibilita sua aplicação a problemas em que é necessário utilizar estatística de alta ordem.

3.3 Propriedades

Nessa seção são apresentadas algumas propriedades da correntropia circular bem como as suas provas matemáticas. Algumas já foram apresentadas na seção sobre cor- rentropia convencional e se estendem ao caso da correntropia circular, como simetria, informações estatísticas de alta ordem e interpretação probabilística, outras derivam da correntropia convencional com algumas modificações em virtude das peculiaridades dos dados circulares, como resposta limitada e positiva, estimador consistente e não envie- sado. Além disso, uma nova propriedade foi estudada para demostrar que há uma relação entre a correntropia convencional e a correntropia circular para ângulos pequenos.

Propriedade 1

Simetria:Parakernelssimétricos a correntropia circular também é simétrica,

Cσ(Θ,Φ) =E{k(Θ,Φ)} =E{k(Φ,Θ)} =Cσ(Φ,Θ) (3.15) Prova. desde que okernelseja simétrico e positivo definido, a correntropia segue as mesmas propriedades já que o operadorE{.}é linear. Como a função kernelcircular é simétricak(Θ) =k(−Θ)e definida positiva, a propriedade é verdadeira.

(38)

CAPÍTULO 3. CORRENTROPIA CIRCULAR 25

Propriedade 2

Resposta limitada e positiva: Para o kernel de von Mises, a correntropia circular é sempre positiva e limitada variando entre 1

2πI02(σ), grau mínimo de similaridade, e I0(2σ)

2πI02(σ)

para máxima similaridade.

Prova. okernelobtido a partir da distribuição de von Mises possui valores máximos emΘ−Φ=0,π,−π. Logo nesses pontos tem-se:

Cσ(Θ,Φ) =

I0(2σ) 2πI02(σ)

(3.16) já paraΘ−Φ= ±π2, tem-se:

Cσ(Θ,Φ) = 1 2πI02(σ)

(3.17)

Propriedade 3

A correntropia circular fornece informações estatísticas de alta ordem: Para o ker- nelde von Mises, a correntropia circular é uma soma ponderada dos infinitos momentos estatísticos de ordem par da variável aleatóriaΘ−Φ, inclusive o momento estatístico de segunda ordem, que acontece quando a largura dokernelσé pequeno o suficiente é equi- valente a correlação circular. Dessa forma, essa propriedade também estabelece que a correntropia circular generaliza a correlação. Tal característica será melhor detalhada na seção 3.4.1, onde será feito um estudo sobre a influência da largura dokernelna corren- tropia circular.

Prova: Expandindo a equação 3.13 em termos de série de Taylor, tem-se:

Cσ(Θ,Φ) =E

⎡⎢

⎢⎢

⎣ 1+

22σ2cos(α)2

22 +

24σ4cos(α)4 2242 +

26σ6cos(α)6 224262 +...

⎤⎥

⎥⎥

=E

⎡⎢

⎢⎢

n=0

(

σcos(α) n! )

2n

⎥⎥

⎦ ,

(3.18)

na qualα=Θ−Φ2 .

Percebe-se pela equação 3.18 que para valores maiores deσos termos de mais altas potências são considerados, pois embora os denominadores cresçam, há uma compensa- ção através do termoσ2nno numerador. Por outro lado, para valores pequenos de σ, os termos de mais altas ordens são eliminados e a equação 3.18 se aproxima de

Cσ(Θ,Φ) ∼E{cos(Θ−Φ 2 )

2

} (3.19)

Referências

Documentos relacionados

Avaliar a via de morte celular investigando, por meio de citometria de fluxo, a presença de danos por meio de mudanças morfológicas, permeabilidade de membrana, clivagem do DNA

O objetivo geral do projeto consiste em polimerizar de maneira eletroquímica o derivado de ácido 2-hidroxibenzoico em eletrodo de carbono de grafite de lapiseira, com o intuito de

Assim poderíamos partir do princípio que o conteúdo oferecido pelo jornal em suas páginas não seria a “verdade absoluta”, em um paralelo com o conceito filosófico, mas a

Além dessa técnica de observação do campo (análise exploratória), usamos os recursos audiovisuais para registrar o evento com a finalidade de, em sua reprodução, ampliar

51 a mesma interpretação, redigindo-o da seguinte maneira : « ninguém pode, porém, contestar o casamento de pessoas fallecidas na posse desse estado, em prejuizo dos

Nas dimensões econômica e social, Gray (2000, p.14) analisou a relação entre liberdade de mercado e coesão social na Grã-Bretanha entre meados do século XIX e meados do século

Com o objetivo de avaliar os parâmetros de qualidade de amostras dos chás mais consumidos pela população (hortelã, sene, erva-doce e camomila), amostras

Interpretei obras de Manuel Rodrigues Coelho, mas somente depois me terem sido sugeridas por João Vaz, nomeadamente o primeiro e o segundo verso sobre os passos do cantochão do