• Nenhum resultado encontrado

Estudo e aplicação de filtragem estocástica utilizando o filtro de Kalman

N/A
N/A
Protected

Academic year: 2021

Share "Estudo e aplicação de filtragem estocástica utilizando o filtro de Kalman"

Copied!
115
0
0

Texto

(1)

CÂMPUS CURITIBA

DEPARTAMENTO ACADÊMICO DE ELETROTÉCNICA

ENGENHARIA DE CONTROLE E AUTOMAÇÃO

JOÃO PAULO SILVA GONÇALVES

PEDRO SCROCCARO ZATTONI

ESTUDO E APLICAÇÃO DE FILTRAGEM ESTOCÁSTICA

UTILIZANDO O FILTRO DE KALMAN

TRABALHO DE CONCLUSÃO DE CURSO

CURITIBA 2017

(2)

PEDRO SCROCCARO ZATTONI

ESTUDO E APLICAÇÃO DE FILTRAGEM ESTOCÁSTICA

UTILIZANDO O FILTRO DE KALMAN

Trabalho de Conclusão de Curso de Graduação do curso de Engenharia de Controle e Automação do Departamento Acadêmico de Eletrotécnica (DAELT) da Universidade Tecnológica Federal do Paraná (UTFPR), como requisito para obtenção do título de Engenheiro de Controle e Automação.

Orientador: Prof. Dr. Rafael Fontes Souto

Coorientador: Prof. Me. Ednilson Soares Maciel

CURITIBA 2017

(3)

A folha de aprovação assinada encontra-se na Coordenação do Curso de Engenharia de Controle e Automação

Estudo e Aplicação de Filtragem Estocástica Utilizando o Filtro de

Kalman

Este Trabalho de Conclusão de Curso de Graduação foi julgado e aprovado como requisito parcial para a obtenção do Título de Engenheiro de Controle e Automação, do curso de Engenharia de Controle e Automação do Departamento Acadêmico de Eletrotécnica (DAELT) da Universidade Tecnológica Federal do Paraná (UTFPR).

Curitiba, 12 de junho de 2017.

____________________________________ Prof. Paulo Sérgio Walenia, Esp.

Coordenador de Curso Engenharia de Controle e Automação

____________________________________ Prof. Marcelo de Oliveira Rosa, Dr.

Responsável pelos Trabalhos de Conclusão de Curso de Engenharia de Controle e Automação do DAELT

ORIENTAÇÃO BANCA EXAMINADORA

______________________________________ Rafael Fontes Souto, Dr.

Universidade Tecnológica Federal do Paraná Orientador

______________________________________ Ednilson Soares Maciel, Me.

Universidade Tecnológica Federal do Paraná Co-Orientador

_____________________________________ Elder Oroski, Dr.

Universidade Tecnológica Federal do Paraná

_____________________________________ Victor Baptista Frencl, Dr.

Universidade Tecnológica Federal do Paraná

_____________________________________ Ednilson Soares Maciel, Me.

(4)

Agradecemos ao nosso orientador, Professor Rafael Fontes Souto, pela sua disposição, ensinamentos e motivação, pois foram de grande importância no desenvolvimento deste trabalho. Agradecemos também ao Professor Ednilson Soares Maciel, nosso coorientador, por trazer uma problemática onde poderíamos aplicar nossos conhecimentos. Além disso, também agradecemos aos professores da banca, Professor Elder Oroski e Professor Victor Frencl, pelos apontamentos e considerações que melhoram a qualidade do trabalho.

De maneira geral, agradecemos a todos aqueles que participaram de forma direta e indireta na construção deste trabalho, principalmente aos nossos familiares e amigos pelo apoio e incentivo.

(5)

João Paulo

Aos meus pais, Armando e Maribel.

(6)

GONÇALVES, João Paulo S. ZATTONI, Pedro S. Estudo e Aplicação de Filtragem Estocástica Utilizando o Filtro de Kalman. 2017. 114f. Trabalho de Conclusão de Curso – Engenharia de Controle e Automação, Universidade Tecnológica Federal do Paraná. Curitiba, 2017.

Este trabalho tem como objetivo principal introduzir os conceitos fundamentais da teoria e prática do filtro de Kalman. Para isso, foram apresentados os conceitos fundamentais de probabilidade, processos estocásticos e estimadores recursivos necessários para o entendimento do filtro de Kalman, bem como toda a dedução teórica de suas equações e exemplos de funcionamento. Além disso, foram apresentadas duas variações do filtro de Kalman, conhecidas como filtro de Kalman Estendido e filtro de Kalman Unscented, que são utilizadas quando os sistemas estudados apresentam dinâmicas não lineares. Por fim, o filtro de Kalman foi aplicado no problema de detecção de falhas em motores de indução, gerando resultados bastante promissores e abrindo possibilidades de pesquisa no estudo de máquinas elétricas utilizando filtragem estocástica.

Palavras-chave: Filtragem Estocástica, Filtro de Kalman, Filtro de Kalman Estendido, Detecção de Falhas em Motores de Indução.

(7)

GONÇALVES, João Paulo S. ZATTONI, Pedro S. .2017. 114f. – Engenharia de Controle e Automação, Universidade Tecnológica Federal do Paraná. Curitiba, 2017.

This work has as main objective to introduce the fundamental concepts of the theory and practice of the Kalman filter. For this purpose, the fundamental concepts of probability, random processes and recursive estimators necessary for the understanding of the Kalman filter were presented, as well as the theoretical deduction of its equations and examples of implementation. In addition, two variations of the Kalman filter known as Extended Kalman filter and Unscented Kalman filter were presented, which are used when the systems studied present nonlinear dynamics. Finally, the Kalman filter was applied to the problem of fault detection in induction motors, generating very promising results and opening research possibilities in the study of electric machines using stochastic filtering.

Keywords: Stochastic Filtering, Kalman Filter, Extended Kalman Filter, Fault Detection in Induction Motors.

(8)

FIGURA 1 Máquina determinística e estocástica. . . 19 –

FIGURA 2 Senoide com graus de incerteza diferentes. . . 20 –

FIGURA 3 Espaço amostral mutuamente exclusivo. . . 22 –

FIGURA 4 Espaço amostral coletivamente completo. . . 22 –

FIGURA 5 Exemplo de espaço amostral discreto e finito. . . 25 –

FIGURA 6 Exemplo de espaço amostral contínuo e infinito. . . 26 –

FIGURA 7 Espaço amostral particionado. . . 28 –

FIGURA 8 Probabilidade condicional e teorema de Bayes . . . 29 –

FIGURA 9 Números da dace do dado representando uma variável aleatória discreta. . 30 –

FIGURA 10 Posição do ponteiro como uma variável aleatória contínua. . . 31 –

FIGURA 11 Função de massa de probabilidade uniforme do exemplo com um dado. . 32 –

FIGURA 12 Função densidade de probabilidade do exemplo do ponteiro. . . 33 –

FIGURA 13 Distribuição gaussiana. . . 39 –

FIGURA 14 Gaussianas com diferentes parâmetros . . . 39 –

FIGURA 15 Histograma para 1 dado lançado 1000 vezes. . . 40 –

FIGURA 16 Distribuições de probabilidade para diferentes quantidades de dados. . . 41 –

FIGURA 17 Processo estocástico. . . 43 –

FIGURA 18 Arremesso das moedas tratado como um processo estocástico de Bernoulli. . . 44 –

FIGURA 19 Ruído branco gaussiano. . . 46 –

FIGURA 20 Ruído branco gaussiano aditivo. . . 47 –

FIGURA 21 Resistência elétrica x temperatura. . . 50 –

FIGURA 22 Reta obtida por mínimos quadrados. . . 52 –

FIGURA 23 Propagação da incerteza de um sistema. . . 63 –

FIGURA 24 Reposta de um sistema para diferentes valores de q e r. . . 64 –

FIGURA 25 Funcionamento do FKE . . . 72 –

FIGURA 26 Rastreando uma senoide com o filtro De Kalman. . . 78 –

FIGURA 27 Frequência estimada da senoide com FKE. . . 80 –

FIGURA 28 Senoide estimada com EKF e erro de estimação. . . 81 –

FIGURA 29 Modelo esquemático motor CC. . . 82 –

FIGURA 30 Filtragem da corrente do motor. . . 84 –

FIGURA 31 Estimação da velocidade. . . 84 –

FIGURA 32 Influência de harmônicos em um sinal senoidal. . . 86 –

FIGURA 33 Espectro de falha com alimentação pela rede elétrica e pelo inversor. . . 87 –

FIGURA 34 Rotor do motor em gaiola e falha de quebra da barra. . . 88 –

FIGURA 35 Espectro com k=1 e influência do escorregamento no comportamento no espectro de falha. . . 89 –

FIGURA 36 Bancada de ensaio. . . 90 –

FIGURA 37 Rotores utilizados para experimentação. . . 90 –

FIGURA 38 Instrumentação para medição de corrente. . . 91 –

(9)

FIGURA 41 FFT do sinal de corrente para 1,667s de medição. . . 97 –

FIGURA 42 FFT do sinal de corrente para fs= 6kHz. . . 97

FIGURA 43 FFT do sinal de corrente para fs= 3kHz. . . 97

FIGURA 44 Estimação dos estados para o Modelo 1. . . 98 –

FIGURA 45 Corrente medida e estimação do FK para o Modelo 1. . . 99 –

FIGURA 46 FFT resultante do Modelo 1 para os dados originais (6,667s de medição e fs= 12kHz). . . 99

FIGURA 47 FFT resultante do Modelo 1 para diferentes intervalos de medição. . . 100 –

FIGURA 48 FFT resultante do Modelo 1 para diferentes frequências de amostragem. 100 –

FIGURA 49 Estimacão dos estados para o Modelo 2 utilizando os dados originais (6,667s de medição e fs= 12kHz). . . 101

FIGURA 50 Corrente medida e estimação do FK para o Modelo 2. . . 101 –

FIGURA 51 FFT resultante do Modelo 2 para dados originais (6,667s de medição e fs= 12kHz). . . 102 –

FIGURA 52 FFT resultante do Modelo 2 para diferentes intervalos de medição. . . 102 –

FIGURA 53 FFT resultante do Modelo 2 para diferentes frequências de amostragem. 103 –

FIGURA 54 Estimação dos estados do Modelo 2 para diferentes frequências de amostragem. . . 103 –

FIGURA 55 FFT das medições de 0Hz a 140Hz. . . 105 –

(10)

TABELA 1 Comparação números de amostras e média temporal para ergodicidade. . . 45 –

TABELA 2 Incertezas simplificadas. . . 59 –

TABELA 3 Equações simplificadas do filtro de Kalman. . . 62 –

TABELA 4 Algoritmo do filtro de Kalman linear. . . 69 –

TABELA 5 Algoritmo do filtro de Kalman Estendido. . . 71 –

(11)

NASA National Aeronautics and Space Administration ARC Ames Research Center

GPS Global Positioning System

FDP Função Densidade de Probabilidade WGN White Gaussian Noise

BLUE Best Linear Unbiased Estimator FK Filtro de Kalman

FKE Filtro de Kalman Estendido FKU Filtro de Kalman Unscented

CC Corrente Contínua

MOSFET Metal–Oxide–Semiconductor Field-Effect Transistor IGBT Insulated-Gate Bipolar Transistor

(12)

1 INTRODUÇÃO . . . 13 1.1 TEMA . . . 14 1.1.1 Delimitação do Tema . . . 15 1.2 PROBLEMAS E PREMISSAS . . . 15 1.3 OBJETIVOS . . . 16 1.3.1 Objetivo Geral . . . 16 1.3.2 Objetivos Específicos . . . 16 1.4 JUSTIFICATIVA . . . 16 1.5 PROCEDIMENTOS METODOLÓGICOS . . . 17 1.6 ESTRUTURA DO TRABALHO . . . 17

2 FUNDAMENTOS DE PROBABILIDADE E PROCESSOS ESTOCÁSTICOS . . . 19

2.1 INTRODUÇÃO . . . 19

2.2 FUNDAMENTOS DE PROBABILIDADE . . . 21

2.2.1 Espaços Amostrais e Leis de Probabilidade . . . 21

2.2.2 Probabilidade Condicional e o Teorema de Bayes . . . 26

2.2.3 Variáveis Aleatórias . . . 30

2.2.4 Distribuição de Probabilidade . . . 31

2.2.5 Valor Esperado . . . 33

2.2.6 Variância e Covariância . . . 36

2.2.7 Distribuição Normal (Gaussiana) . . . 38

2.3 INTRODUÇÃO A PROCESSOS ESTOCÁSTICOS . . . 42

2.4 INTRODUÇÃO A FILTRAGEM ESTOCÁSTICA . . . 47

3 FUNDAMENTOS DO FILTRO DE KALMAN . . . 49

3.1 INTRODUÇÃO . . . 49

3.2 O ESTIMADOR DE MÍNIMOS QUADRADOS . . . 49

3.2.1 Caso Determinístico . . . 49

3.2.2 Caso Estocástico . . . 53

3.2.3 Recursividade e o Estimador de Mínimos Quadrados Recursivo . . . 55

3.3 INTUIÇÃO SOBRE O FUNCIONAMENTO DO FILTRO DE KALMAN . . . 58

3.3.1 Etapa de Predição . . . 60

3.3.2 Etapa de Atualização . . . 60

3.3.3 Exemplo de Funcionamento . . . 62

3.3.4 Sintonia . . . 64

3.4 FILTRO DE KALMAN DISCRETO PARA SISTEMAS LINEARES . . . 65

3.5 FILTRAGEM NÃO LINEAR . . . 69

3.5.1 Filtro de Kalman Estendido . . . 70

3.5.2 Filtro de Kalman Unscented . . . 72

3.6 EXEMPLOS DE UTILIZAÇÃO DO FILTRO DE KALMAN . . . 76

3.6.1 Rastreando Uma Senoide . . . 76

3.6.2 Filtro de Kalman como Observador de Estados . . . 81

(13)

4.2 DETECÇÃO DE FALHAS EM MOTORES DE INDUÇÃO E PROBLEMÁTICA . . 85

4.2.1 Quebra de Barras em Rotores de Motores de Indução do Tipo Gaiola . . . 88

4.3 METODOLOGIA EXPERIMENTAL E ANÁLISE DOS DADOS . . . 89

4.3.1 Coleta dos Dados do Motor . . . 89

4.3.2 Análise dos Dados . . . 91

4.3.2.1 Modelo 1 . . . 93

4.3.2.2 Modelo 2 . . . 94

4.4 RESULTADOS . . . 95

4.4.1 Resultados para o Modelo 1 . . . 98

4.4.2 Resultados para o Modelo 2 . . . 100

4.5 DISCUSSÃO . . . 103

5 CONCLUSÃO E TRABALHOS FUTUROS . . . 106

REFERÊNCIAS . . . 108

Apêndice A -- IMPLEMENTAÇÃO DO FILTRO DE KALMAN ESTENDIDO EM MATLAB . . . 110

Apêndice B -- IMPLEMENTAÇÃO DO MODELO 1 EM MATLAB . . . 112

(14)

1 INTRODUÇÃO

Ao se ouvir uma música com alguma interferência sonora, de modo a se perceber um zumbido ou uma distorção que atrapalhe o entendimento da letra e/ou da melodia, é comum a afirmação de que o sinal está ruidoso. O conceito de ruído é simples e, intuitivo, porém mais amplo do que o ponto de vista puramente acústico exemplificado anteriormente. Pode-se dizer que, ruído é tudo aquilo que interfere ou perturba um sinal de forma indesejada, causando uma mudança das informações contidas no sinal verdadeiro (ETTEN, 2005). Vale ressaltar que ruído não descreve apenas uma perturbação externa, mas também informações desconhecidas sobre o sistema a ser estudado, isto é, erros devido a forma de representação matemática utilizada. Assim, ruídos estão presentes, de uma maneira ou de outra, em todos os sistemas reais.

A matemática é a linguagem utilizada pela ciência para interpretar os fenômenos da natureza ou, de forma equivalente, os sistemas reais, de maneira que possamos compreendê-los melhor. Esta interpretação é denominada de modelagem matemática, sendo chamado de modelos estocásticos os modelos matemáticos que representam sistemas ruidosos. Um modelo é considerado estocástico quando descreve um comportamento dinâmico que evolui ao longo do tempo de forma aleatória (BROWN, 2012). Logo, diferente de um modelo determinístico, em que uma mesma entrada sempre gera a mesma saída, em um modelo estocástico, uma mesma entrada pode gerar saídas distintas, contudo, respeitando uma certa distribuição de probabilidade. Sistemas estocásticos requerem ferramentas matemáticas adequadas para serem tratados. Logo, desenvolveu-se nas últimas décadas técnicas para lidar com os mesmos, possibilitando a minimização das consequências dos ruídos. Uma das principais é a filtragem estocástica.

De acordo com (HAYKIN, 2013), filtragem é a ação de obter informações relevantes a partir de dados ruidosos. Este conceito de filtragem também é chamado de estimação ou filtragem estocástica. Ainda em (HAYKIN, 2013) um filtro ou estimador é um sistema desenvolvido para realizar a ação de filtragem. O problema da filtragem é quantificar a relevância das informações obtidas, normalmente advindas de medições ruidosas de sensores, para que elas possam ser utilizadas para descrever o fenômeno de interesse. Um filtro estocástico em especial muito utilizado nas mais diversas áreas da ciência é o filtro de Kalman (KáLMáN, 1960) cujo o conceito e aplicações serão o objeto principal de estudo neste trabalho.

(15)

1.1 TEMA

O filtro de Kalman (KáLMáN, 1960) é um algoritmo matemático de filtragem estocástica desenvolvido por Rudolf Kalman em 1960 para sistemas discretos no tempo e, posteriormente, em 1961, com a ajuda de Richard Bucy, para sistemas contínuo no tempo, sendo neste caso chamado de filtro de Kalman-Bucy. Com o passar dos anos, novas formas do filtro foram desenvolvidas e aplicadas em diferentes áreas de estudo, abrangendo desde os sistemas de navegação e de telecomunicações até sistemas financeiros e biológicos.

A primeira aplicação deste filtro se deu no auge da corrida armamentista durante a guerra fria. Em 1957, os soviéticos colocaram o primeiro satélite em órbita da Terra, o Sputnik-1. Já em 1961, foi lançado ao espaço a Vostok, a primeira nave espacial pilotada por um ser humano. O cosmonauta soviético Yuri Gagarin foi o primeiro homem a ver a Terra do espaço. Os Estados Unidos reagiram e, em 1961, foi dado início ao Projeto Apollo da NASA. O projeto tinha o objetivo de levar o homem à Lua em menos de 10 anos. Um pouco antes, em 1960, a NASA já estava preocupada com os desafios científicos para se chegar à Lua. Naquela ocasião, Stanley Schmidt era o chefe de pesquisas em análise dinâmica da NASA no Centro de Pesquisa Ames (ARC, do inglês Ames Research Center), na Califórnia. Ele e sua equipe tinham a missão de solucionar o problema de estimação da trajetória das espaçonaves e o controle de navegação, de tal maneira que elas fossem capazes de levar os astronautas à Lua e, principalmente, traze-los de volta em segurança.

Quando Rudolf Kalman apresentou seu trabalho no ARC, Stanley Schmidt percebeu que aquilo poderia ser a solução para os problemas de estimação de trajetórias a serem enfrentados pela NASA. Stanley Schmidt e sua equipe realizaram várias simulações de trajetórias e perceberam que o filtro de Kalman conseguia estimar todas elas de forma precisa. Além disso, devido a não linearidade do problema com que estavam lidando, a equipe de Stanley Schmidt desenvolveu uma nova forma do filtro, conhecida como Filtro de Kalman Estendido (SMITH et al., 1962), utilizada para estimar parâmetros de sistemas não lineares. Logo, o algoritmo desenvolvido por Kalman passou a ser crucial no desenvolvimento do Projeto Apollo e, consequentemente, na missão Apollo 11, que no dia 20 de julho de 1969, levou o primeiro homem a pisar na superfície lunar.

O filtro de Kalman tem um papel fundamental nas teorias de controle moderno como, por exemplo, no controle robusto e no controle ótimo, mas também é aplicado no campo de fusão dados/sensores, robótica e identificação de sistemas.

(16)

1.1.1 Delimitação do Tema

Conhecer com precisão o valor de algum sinal que esteja sendo medido é de grande importância nas mais diversas áreas de estudo das ciências, ainda mais se esse sinal estiver imerso em ruído ou distúrbios (internos ou externos em relação ao sistema), desde o sinal de um equipamento médico até a posição de uma veículo transmitida por um GPS.

No entanto, com o aumento da complexidade dos problemas enfrentados pela engenharia, e com a crescente quantidade de sensores sendo usados em praticamente todos as áreas da tecnologia atualmente, faz-se cada vez mais necessária uma maior precisão na obtenção de informações sobre o mundo real, a qual muitas vezes não é alcançada apenas por dados brutos de sensores. Para tratar destas questões, é necessário o uso de técnicas matemáticas, para que as informações obtidas por sensores sejam melhor aproveitadas.

Este trabalho tem por objetivo principal demonstrar os fundamentos matemáticos do filtro de Kalman e como aplicá-lo a problemas reais de engenharia, em particular, este trabalho apresenta uma aplicação do filtro de Kalman em um problema de detecção de falhas de motores de indução.

1.2 PROBLEMAS E PREMISSAS

O filtro de Kalman é um filtro estocástico que permite lidar com dados ruidosos de uma maneira ótima, podendo combinar as informações da dinâmica do sistema com informações das medições, para reaizar a melhor estimativa possível dos estados do sistema.

No entanto, para a utilização do filtro de Kalman, algumas hipóteses devem ser consideradas. Primeiramente, sabe-se da teoria do filtro de Kalman que ele será um estimador ótimo se:

• O sistema a ser estudado possui comportamento linear e sua dinâmica é perfeitamente conhecida;

• O ruído de medição e o ruído de processo forem considerados do tipo ruído branco gaussiano, com suas respectivas covariâncias sendo perfeitamente conhecidas.

Além disso, para o caso de um sistema não linear, mas ainda sob a consideração de sua dinâmica ser perfeitamente conhecida, poderá ser utilizado o filtro de Kalman estendido, isto é, uma aplicação do filtro de Kalman com os parâmetros do sistema sendo linearizados sobre o

(17)

ponto de estimação, ou o filtro de Kalman Unscented, o qual utiliza um método de linearização estatística, muito utilizado em aplicações não lineares.

1.3 OBJETIVOS

1.3.1 Objetivo Geral

Desenvolver a base teórica do filtro de Kalman e demonstrar seu comportamento em uma aplicação real.

1.3.2 Objetivos Específicos

• Estudar os fundamentos teóricos do filtro de Kalman;

• Simular a atuação do filtro de Kalman na estimação de estados de um sistema estocástico discreto no tempo;

• Implementar em MATLAB o algorítimo de filtragem estocástica (filtro de Kalman);

• Verificar o desempenho do filtro de Kalman para diferentes parâmetros de ajuste;

• Aplicar o filtro de Kalman no problema de análise de falhas de um motor de indução;

1.4 JUSTIFICATIVA

Considerando que o filtro de Kalman foi uma descoberta importante do século passado, e que muitos dos avanços tecnológicos alcançados pela humanidade tiveram grande influência do mesmo, ter uma visão clara de seu funcionamento e saber como aplicá-lo é essencial para os engenheiros e cientistas atuais.

Embora a descoberta de Rudolf Kalman seja uma ferramenta matemática poderosa para a ciência, a matemática utilizada muitas vezes não é compreendida de forma adequada. Logo, com este trabalho, busca-se explicar os conceitos do filtro de Kalman de forma clara, objetiva e com uma linguagem mais acessível, de forma que se possa usufruir de todos os benefícios do filtro, sem necessariamente ter um conhecimento matemático prévio muito avançado.

Automóveis autônomos, aeronaves que transitam pelos céus sem que haja colisões umas nas outras, drones que fazem entregas a domicílios, ambientes com realidade aumentada,

(18)

mapeamento 3D, são todas aplicações que, de uma maneira ou de outra, só são possíveis através do conhecimento preciso de dados medidos, os quais por sua vez necessitam a devida filtragem. Além disso, detecção de falhas tem grande importância na confiabilidade e robustez dos sistema modernos. Independente da aplicação, seja industrial, militar etc, a previsão e análise de falhas é um fator chave no funcionamento adequado de qualquer sistema. Através dela, é possível diminuir custos, aumentar a vida útil do sistema, impedir acidentes e melhorar a qualidade das linhas de produção. Considerando ainda que o foco será em utilizar filtragem estocástica para melhorar a detecção de falhas em motores de indução , o tópico é ainda mais relevante, já que motores de indução são comumente encontrados em aplicações industriais.

Em suma, a motivação central deste trabalho é apresentar, de forma clara e objetiva, como é realizada a filtragem utilizando o filtro de Kalman e como colocar um problema real no contexto da filtragem.

1.5 PROCEDIMENTOS METODOLÓGICOS

Em um primeiro momento, visando consolidar uma base sólida de conhecimento acerca do tema e assimilar os conceitos teóricos fundamentais envolvidos, realizou-se um estudo bibliográfico sobre o filtro de Kalman a partir das seguintes referências (BROWN, 2012; AGUIRRE, 2007; GREWAL, 2014; JAZWINSKI, 2007). O próximo passo foi a implementação dos conhecimentos adquiridos na etapa anterior em problemas práticos estudados por meio de simulações computacionais, usando o software MATLAB.

Após a implementação do algoritmo do filtro de Kalman em MATLAB, estudou-se o desempenho e o comportamento do filtro nas mais diversas situações (medições muito ruidosas, modelagem inadequada, parâmetros mal projetados etc).

Finalmente, o filtro foi implementado na simulação de um sistema real, usando dados medidos das correntes de alimentação de um motor de indução do tipo gaiola com o intuito de aplica o filtro para detectar falhas.

1.6 ESTRUTURA DO TRABALHO

1. Introdução

1.1. Apresentação do filtro de Kalman e introdução ao problema da filtragem.

(19)

2.1. Introdução à probabilidade; 2.2. Sistemas estocásticos.

3. Fundamentos do Filtro de Kalman

3.1. Introdução a Teoria da Estimação;

3.2. Funcionamento Intuitivo do Filtro de Kalman; 3.3. Dedução Matemática do Filtro de Kalman Linear; 3.4. Filtragem Não Linear;

3.5. Simulações Computacionais.

4. Estudo de Caso - Filtragem Estocástica Aplicada na Detecção de Falhas de Motores de Indução

4.1. Introdução a Detecção de Falhas em Motores de Indução; 4.2. Modelagem do Problema;

4.3. Filtragem Aplicada ao Problema.

(20)

2 FUNDAMENTOS DE PROBABILIDADE E PROCESSOS ESTOCÁSTICOS

2.1 INTRODUÇÃO

Como tratado no capítulo 1, um sistema dinâmico pode ser classificado como determinístico ou estocástico/aleatório. Para um melhor entendimento destes conceitos, considere uma máquina cuja operação ao longo do tempo é representada por um determinado estado. Supõe-se que tal máquina se encontre em apenas um estado a cada intervalo de tempo. Se esta máquina for determinística, quando ocorrer a transição do estado anterior para o próximo, embora existam outros valores para o sistema assumir, ele assumirá aquele que possui 100% de chance de ocorrência. No entanto, se esta máquina for estocástica, quando ocorrer a transição de um estado para o outro, existem vários estados e várias probabilidades diferentes de ocorrência para cada estado. Isto leva a um comportamento aleatório que produz uma certa imprecisão em dizer para qual estado a máquina evoluirá. Consequentemente, há uma incerteza sobre a dinâmica do sistema. A Figura 1 apresenta de forma simplificada a situação discutida.

Figura 1: Máquina determinística e estocástica.

(21)

observação de um determinado fenômeno muitas vezes medida por um sensor. Já um sistema é o que pode modificar as características deste sinal. Em um exemplo simples, a corrente elétrica é um sinal e o circuito elétrico do qual ela faz parte é um sistema. A Figura 2 apresenta o comportamento de um sinal determinístico e de um outro sinal como uma combinação de comportamento determinístico e estocástico com diferentes graus de incerteza. O porquê de tal comportamento ficará mais claro no decorrer deste capítulo.

Figura 2: Senoide com graus de incerteza diferentes.

Uma incerteza é tudo aquilo que não se pode prever com precisão ou inferir convictamente a respeito. Além disso, também representa algo que se desconhece sobre o fenômeno em questão. O mundo real é um sistema incerto por si só, seja no ruído que interfere na rede telefônica ou a imprevisibilidade de acontecimentos futuros como fenômenos naturais. Estamos todos cercados por incertezas, sejam elas subjetivas ou não. No âmbito da engenharia não é diferente. Conforme as tecnologias evoluem, os sistemas também passam a se tornar mais complexos e, consequentemente, as fontes de incertezas aumentam. Logo, é necessário entender e modelar fenômenos que possuem características incertas, de maneira a reduzir seus efeitos nos vários sistemas. Uma das ferramentas para esta finalidade é a teoria da probabilidade.

(22)

A partir desta teoria é possível utilizar técnicas que conseguem obter informações mais precisas sobre o comportamento de um sistema. No entanto, para entender como tais técnicas podem ser uteis na engenharia, é necessário conhecer os seus fundamentos, os quais são os objetivos deste capítulo. Os conceitos apresentados a seguir foram baseados em (PAPOULIS, 2002) e nos capítulos introdutórios de (BROWN, 2012) e (JAZWINSKI, 2007).

2.2 FUNDAMENTOS DE PROBABILIDADE

2.2.1 Espaços Amostrais e Leis de Probabilidade

Um modelo probabilístico deve possuir duas características básicas, o espaço amostral e uma lei de probabilidade. O espaço amostral é o conjunto de todos os resultados possíveis de um experimento aleatório1 A lei de probabilidade relaciona os possíveis resultados do espaço amostral a uma chance de ocorrência de um evento. Tais conceitos serão discutidos mais profundamente adiante.

Normalmente, o espaço amostral é representado pela letra grega Ω (Ômega). Os elementos de Ω devem obedecer a duas condições:

• Serem mutuamente exclusivos;

• Serem coletivamente completos.

Dizer que Ω é mutuamente exclusivo significa que, na ocorrência de um dos seus possíveis resultados, apenas um pode ocorrer. Logo, não podem ocorrer simultaneamente dois resultados distintos de um mesmo experimento. A Figura 3 apresenta um exemplo gráfico do conceito.

1Em probabilidade, o experimento aleatório é uma situação que pode gerar várias ocorrências diferentes, como o jogar de um dado.

(23)

Figura 3: Espaço amostral mutuamente exclusivo.

O espaço amostral é coletivamente completo se possuir todos os resultados possíveis de um experimento. Logo na ocorrência de um resultado, ele deve estar em Ω. Em outras palavras, não podem ocorrer resultados que não estejam em Ω. Tal conceito pode ser visualizado na Figura 4.

Figura 4: Espaço amostral coletivamente completo.

Um exemplo de um espaço amostral mutuamente exclusivo e coletivamente completo pode ser dado pelo jogar de uma moeda. Existem apenas dois resultados possíveis, cara ou coroa, que representam o espaço amostral. Se um deles ocorrer, o outro não ocorre, e os dois fazem parte de Ω.

(24)

Como mencionado anteriormente, a lei de probabilidade relaciona aos elementos de Ω uma certa probabilidade ou chance de ocorrência. No entanto, a lei não é aplicada diretamente aos elementos individuais de Ω, mas sim a um subconjunto do espaço amostral ao qual chama-se evento. Sendo A um evento de Ω, a sua probabilidade de ocorrência é simbolizada por P(A). Para que a lei seja válida é necessário que ela obedeça a certos axiomas probabilísticos, os quais são:

1. Não Negatividade – A probabilidade de um evento ocorrer é sempre não negativa.

P(A) ≥ 0. (1)

2. Normalização - A probabilidade de ocorrer todo o espaço amostral é sempre unitária.

P(Ω) = 1. (2)

3. Aditividade – Dado dois conjuntos A e B, os quais são disjuntos2, então a probabilidade da união entre A e B é igual à soma de suas probabilidades separadamente.

Se A∩ B = /0 Entao˜ P(A ∪ B) = P(A) + P(B). (3)

Através da aplicação direta destes axiomas, pode-se chegar a algumas outras propriedades, tais como:

1. A probabilidade de um evento ocorrer é sempre menor ou igual a um.

P(A) ≤ 1. (4)

2. A probabilidade de ocorrer o conjunto vazio é igual a zero.

P( /0) = 0. (5)

3. Dado três conjuntos disjuntos, A, B e C, a probabilidade de sua união é dada pela soma de suas probabilidades separadamente. Generaliza-se para k conjuntos disjuntos, em que k∈ N∗e é finito.

2Conjuntos disjuntos não possuem elementos em comum, ou seja, a interseção entre os conjuntos é igual ao conjunto vazio.

(25)

Se A∩ B ∩C = /0 Entao˜ P(A ∪ B ∪C) = P(A) + P(B) + P(C). (6) Generalizando, Se k \ j=1 Aj= /0 Entao˜ P k [ j=1 Aj ! = k

j=1 P(Aj). (7)

4. Se A e B são conjuntos não disjuntos, a probabilidade da união é igual à soma de suas probabilidades separadamente menos a probabilidade de suas intersecção.

Se A∩ B 6= /0 Entao˜ P(A ∪ B) = P(A) + P(B) − P(A ∩ B). (8)

5. Seja Aco complemento de A. Sendo A, B e C três conjuntos não disjuntos, A ∩ B ∩C 6= /0, a probabilidade de suas uniões é dada por:

Se P(A ∪ B ∪C) = P(A) + P(Ac∩ B) + P(Ac∩ Bc∩C). (9)

Vale ressaltar que a lei de probabilidade deve ser escolhida conforme a natureza do experimento aleatório. Alguns exemplos são dados a seguir para um melhor entendimento.

• Experimento aleatório discreto com espaço amostral finito

Considere um experimento que consiste em jogar dois dados de 6 faces cada. O espaço amostral do experimento é dado pelo conjunto de pares ordenados de todas as combinações possíveis entre os dados. Note que um par ordenado representa apenas um elemento em Ω, e Ω possui n elementos. Considerando que cada combinação de pares possui a mesma probabilidade de ocorrência, no caso 361 (1n para um caso geral), a lei de probabilidade para este experimento é

P(A) = K

n, (10)

em que K é o número de elementos no evento A e n o número total de elementos no espaço amostral.

Percebe-se que a probabilidade da ocorrência de um evento A em um espaço amostral discreto e finito, com a probabilidade de 1n para cada n elemento de Ω, é dada pela probabilidade de cada um de seus elementos separadamente.

(26)

Sendo A= {s1, s2, s3, ..., sk},

P({s1, s2, s3, ..., sk}) = P({s1}) + P({s2}) + P({s3}) + ... + P({sk}).

(11)

Simplificando a notação tem-se

P(A) = P(s1) + P(s2) + P(s3) + ... + P(sk). (12)

A Figura 5 apresenta um exemplo do experimento descrito.

Figura 5: Exemplo de espaço amostral discreto e finito.

• Experimento aleatório contínuo com espaço amostral infinito

Considere agora um atirador em treinamento, o qual precisa acertar um alvo quadrado. Qual a probabilidade de ele acertar um ponto com precisão infinitesimal? Pela lógica do experimento anterior, a probabilidade seria zero (1). Logo, quando se trata de espaços amostrais contínuos, não se calcula a probabilidade de um único ponto, mas sim de uma área do espaço amostral. O evento A é uma área de Ω e o espaço amostral tem área unitária. A Figura 6 ilustra uma versão simplificada do fato discutido.

(27)

Figura 6: Exemplo de espaço amostral contínuo e infinito.

2.2.2 Probabilidade Condicional e o Teorema de Bayes

Apresentado alguns conceitos introdutórios, pode-se dar início a aplicabilidade da probabilidade a problemas reais. Uma dessas aplicações relaciona-se à questão seguinte: dado que se possui informações sobre algo, como inferir a probabilidade de outrem dependente deste? A resposta para esta pergunta é probabilidade condicional.

A definição matemática de probabilidade condicional é

P(A|B) =P(A ∩ B)

P(B) . (13)

A equação é válida para P(B) > 0.

Os axiomas probabilísticos também são válidos para probabilidade condicional:

1. Não Negatividade

P(A|B) ≥ 0. (14)

(28)

P(B|B) = 1. (15)

3. Aditividade

Se A∩C = /0 Entao˜ P(A ∪C|B) = P(A|B) + P(C|B). (16)

A intuição por trás da definição de probabilidade condicional é, sabendo-se uma determinada informação sobre a ocorrência de um evento, como calcular a probabilidade deste evento ocorrer com base nesta informação. A notação de P(A|B) significa qual a probabilidade do evento A ocorrer sendo que B já ocorreu. Logo B apresenta uma informação sobre a ocorrência de A. Deve estar claro que A e B não representam a ordem sequencial de ocorrência dos eventos. A definição ainda pode ser escrita conforme equação (17) sem nenhuma mudança de conceito.

P(B|A) =P(A ∩ B)

P(B) . (17)

Diretamente da equação (13), pode-se deduzir outras regras, tais como:

1. Regra da Multiplicação – Modo de calcular a probabilidade de ocorrência de 2,3...,k eventos simultaneamente. P(A ∩ B) = P(A|B)P(A). (18) Generalizando, P k \ j=1 Ak ! = P(A1∩ A2∩ ... ∩ Ak) = P(A1) k

i=2 P(Ai|A1∩ A2∩ ... ∩ Ai−1). (19)

2. Teorema da Probabilidade Total – Se um espaço amostral Ω é particionado em An

subespaços (eventos) disjuntos e deseja-se saber a probabilidade de um evento B ocorrer, como calcular esta probabilidade? A Figura 7 mostra um exemplo de Ω particionado.

(29)

Figura 7: Espaço amostral particionado.

O evento B pode ser escrito como:

B= (A1∩ B) ∪ (A2∩ B) ∪ (A3∩ B) ∪ (A4∩ B).

A probabilidade de B é dada por

P(B) = P(A1∩ B) + P(A2∩ B) + P(A3∩ B) + P(A4∩ B).

Logo, usando probabilidade condicional, tem-se:

P(B) = P(A1)P(B|A1) + P(A2)P(B|A2) + P(A3)P(B|A3) + P(A4)P(B|A4).

Generalizando para k partições de Ω, temos o teorema da probabilidade total, dado por:

P(B) =

k

i=1

P(Ai)P(B|Ai). (20)

A partir da probabilidade condicional, pode-se deduzir o teorema que é base da inferência estatística. A estatística é a ciência que se preocupa com o estudo de dados. A inferência estatística preocupa-se em descobrir qual a densidade de probabilidade inerente a um conjunto de dados observados. A base desta análise está no teorema de Bayes.

A probabilidade Bayesiana é um ramo de estudo da teoria de probabilidade que considera a probabilidade de ocorrência de um evento como uma “crença”, ou o quanto

(30)

se acredita que tal evento ocorrerá, diferente da probabilidade “frequentista”, em que a probabilidade de ocorrência de um evento é a frequência com que o mesmo ocorre. O teorema de Bayes é enunciado a seguir:

Teorema de Bayes – Considere um espaço amostral Ω com um total de Ak partições,

semelhante à Figura 7, e ainda que “o grau de crença” de ocorrência do evento Ai é P(Ai). Se

observada uma ocorrência de B igual a P(B|Ai), é possível calcular novos valores para P(Ai),

conforme equação (21).

P(Ai|B) =

P(Ai)P(B|Ai)

∑kj=1P(Aj)P(B|Aj)

. (21)

A equação (21) é o teorema de Bayes. Através dela é possível, dado a ocorrência de B, inferir sobre as novas probabilidades de ocorrência de A, ou seja, a causa de B. Assim, em um exemplo prático, através de medições da saída de um sistema, pode-se inferir sobre as características internas deste sistema. A nova probabilidade calculada pelo teorema de Bayes, P(Ai|B), é chamada probabilidade a posteriori, e a probabilidade anterior a ela, P(Ai), é

chamada de probabilidade a priori.

A Figura 8 apresenta um resumo de forma visual dos conceitos tratados nesta seção.

(31)

2.2.3 Variáveis Aleatórias

No estudo de eventos ruidosos, lida-se, quase sempre, com quantidades físicas como tensão, corrente, torque, distância, ou seja, medidas em unidades físicas. Nesses casos, a chance de ocorrência de um determinado evento não é relacionada a algo, como “tensão em 5V”, mas sim a número real. Por exemplo, a probabilidade de um dado cair com determinada face para cima não é relacionada com a face em si, mas sim com um número real, nesse caso, mais comumente, com o número igual à soma dos pontos da face em questão, como mostra a Figura 9.

Figura 9: Números da dace do dado representando uma variável aleatória discreta.

Isso nos remete ao conceito de variável aleatória. Dado um experimento qualquer, com um espaço amostral bem definido Ω, um conjunto de eventos apropriado e uma probabilidade associada a cada evento, uma variável aleatória X é simplesmente uma função que associa cada ponto do espaço amostral a um número real.

Nota-se que o exemplo da Figura 9 caracteriza uma variável aleatória discreta, uma vez que ela mapeia um número finito de eventos. No entanto, para um espaço infinito de eventos, podemos usar uma variável aleatória contínua para mapear esses eventos na reta real.

Por exemplo, se imaginarmos um ponteiro montado em uma base circular, que gira livremente em torno do seu centro (vide Figura 10), após girarmos o ponteiro, podemos definir a direção que ele aponta como o resultado do experimento e mapear essa direção na reta real, de acordo com o ângulo (em radianos) entre o ponteiro e uma reta horizontal. Essa é uma variável aleatória contínua, porque existem infinitos pontos em que o ponteiro pode parar ao longo do círculo.

(32)

Figura 10: Posição do ponteiro como uma variável aleatória contínua.

É importante ressaltar que, embora uma variável aleatória receba um valor real, esse valor não é a probabilidade do evento em questão. As probabilidades já estão associadas aos eventos do espaço amostral. A variável aleatória X descreve alguma propriedade numérica dos eventos de Ω como a altura de uma pessoa ou a quantidade de “caras” ou “coroas” em um certo número de jogadas de uma moeda. Usando o exemplo da Figura 9, para o evento de um dado cair com a face “2” para cima, X = 2, uma vez que o número real 2 é associado a este evento. Por sua vez, a probabilidade associada a este evento é de 16.

2.2.4 Distribuição de Probabilidade

Em um espaço amostral finito, cada evento é associado com uma certa probabilidade que, por sua vez, é transferida diretamente para os eventos equivalentes mapeados pela variável aleatória discreta usada. Da mesma maneira que no espaço amostral original, a soma das probabilidades de todos os eventos possíveis para a variável aleatória deve ser igual a 1. A associação de uma variável aleatória discreta com seu conjunto de probabilidades é chamada de função massa de probabilidade, ou simplesmente, função de probabilidade.

Ao jogar um dado não viciado, temos a função de massa de probabilidade da Figura 11. Como esperado, mostra todos os eventos com igual probabilidade de ocorrer. Tal função é chamada função de massa de probabilidade uniforme.

(33)

Figura 11: Função de massa de probabilidade uniforme do exemplo com um dado.

O espaço amostral relacionado a uma variável aleatória contínua contém um número infinito de pontos distintos, o que torna impossível a associação de probabilidades para cada evento individual. Na realidade, para espaços contínuos, como já mostrado anteriormente, a probabilidade de um ponto qualquer é igual a zero. Portanto, as probabilidades são calculadas sempre em intervalos de valores. A função contínua equivalente à função massa de probabilidade é chamada de função densidade de probabilidade (FDP), matematicamente representada por fX(x) e possui as seguinte propriedades:

1. Não Negatividade fX(x) ≥ 0. (22) 2. Normalização Z ∞ −∞ fX(x) = 1. (23)

(34)

Figura 12: Função densidade de probabilidade do exemplo do ponteiro.

Uma FDP que será de grande importância para o estudo de filtragem estocástica é chamada de distribuição normal ou Gaussiana, definida pela seguinte função:

fX(x) =√ 1 2πσ2

exp−

(x−µ)2

2σ 2 , (24)

em que µ é a média (ou valor esperado) da variável aleatória, e σ2 é a variância da variável aleatória, ambos parâmetros definidos a seguir.

2.2.5 Valor Esperado

A “média” de alguma grandeza pode parecer bastante intuitiva, mas para um tratamento probabilístico, é necessário formalizar essa ideia, e definir o que é chamado de valor esperado de uma variável aleatória.

Primeiramente, é importante notar que não se calcula a média de algo. Não existe a média de maçãs, das notas A, B, C, ou da face de dados. Sempre se calcula a média dos seus valores numéricos equivalentes, o que é equivalente a calcular a média de uma variável aleatória associada àqueles eventos. Usando a noção intuitiva de média, podemos dizer que a média amostral de uma variável aleatória é igual à soma das realizações dividida pelo número de realizações, como mostra a equação (25).

(35)

¯

X =(X1+ X2+ X3+ ... + Xn)

n . (25)

Por exemplo, se for realizado um experimento em que um dado é jogado cinco vezes, e esse experimento for repetido três vezes, e os resultados da variável aleatória associada a esses três experimentos forem {4, 2, 4, 5, 5}, {3, 1, 2, 6, 1} e {5, 4, 6, 1, 3}, então a média dessas amostras seria igual a:

¯ X1= (4 + 2 + 4 + 5 + 5) 5 = 4, ¯ X2= (3 + 1 + 2 + 6 + 1) 5 = 2,6, ¯ X3= (5 + 4 + 6 + 1 + 3) 5 = 3,8.

Essas médias aparentemente não demonstram nenhuma relação entre si. No entanto, se o experimento anterior for refeito, com a diferença de que o dado será agora jogado cinquenta vezes, ao invés de duas, um possível resultado para as médias seria3:

¯ X1= (4 + 3 + ... + 1 + 1) 50 = 3,52, ¯ X2= (2 + 5 + ... + 3 + 6) 50 = 3,48, ¯ X3= (6 + 2 + ... + 3 + 1) 50 = 3,8.

Nessa segunda rodada de experimentos, já é possível verificar uma tendência da média dessas amostras para um número comum, à medida que o dado é jogado mais vezes. Intuitivamente, a partir do resultado desses experimentos, se o dado fosse jogado um número muito grande de vezes, qual seria o valor que se esperaria como resultado para a média desses lançamentos? Intuitivamente, seria 3,5. Essa é exatamente a ideia do valor esperado de uma variável aleatória que, como o próprio nome sugere, é o valor que se espera obter de uma realização da mesma, ainda que esse valor possa ser impossível de se obter com apenas uma realização, como o valor 3,5 para um dado comum.

Segundo a lei dos grandes números, o valor da média amostral (ou média aritmética) de uma variável aleatória converge para o valor esperado ao passo que o número de amostras tende ao infinito. Dessa forma, pode-se definir o valor esperado de uma variável aleatória

(36)

como a soma de todos os eventos possíveis dessa variável, ponderados pela probabilidade de ocorrência de cada um deles, e representado por E(X ), sendo X a variável aleatória em questão. A equação (26) apresenta uma definição matemática de como calcular o valor esperado de uma variável aleatória discreta.

E(X ) =

n

i=1

xip(xi), (26)

em que pié a probabilidade de ocorrência do evento xi, e n é número de possíveis valores para

a variável aleatória X .

Para exemplificar a equação (26), calcula-se o valor esperado para um dado não viciado, com n = 6, x = {1, 2, 3, 4, 5, 6}, onde a probabilidade de cada evento é igual a 16.

E(X ) = 11 6+ 2 1 6+ 3 1 6+ 4 1 6+ 5 1 6+ 6 1 6 = 3,5.

Para fins didáticos, imagina-se um dado viciado, em que os números 4, 5 e 6 possuem o dobro de chances de cair com a face para cima em relação aos números 1, 2 e 3. Nesse caso, teria-se o seguinte valor esperado para tal dado:

E(X ) = 11 9+ 2 1 9+ 3 1 9+ 4 2 9+ 5 2 9+ 6 2 9 = 4.

Outra maneira de interpretar essa equação é que ela calcula a soma de todas as probabilidades da função massa de probabilidade, cada uma multiplicada pelo seu valor correspondente do eixo x.

Até o momento, a definição de valor esperado foi feita apenas para variáveis discretas, mas utilizando a ideia proposta no parágrafo anterior, é possível estender a equação (26) para variáveis aleatórias contínuas. Assim,

E(X ) = Z ∞

−∞

x fX(x)dx, (27)

de modo que E(X ) corresponde à soma de todos os possíveis valores de X , multiplicados pela sua respectiva probabilidade de ocorrência, sendo fX(x) a função densidade de probabilidade

associada a variável aleatória X .

(37)

E(X ) = Z 2π 0 x 1 2πdx= 1 2π (2π)2 2 = π.

Analisando o gráfico da Figura 12, é intuitivo que o valor esperado da FDP mostrada deve ser igual a π, como é comprovado pela equação acima.

Da mesma maneira que foi definido o valor esperado para uma variável aleatória X , pode-se definir o valor esperado para uma função de X , g(X ). Logo, tem-se:

E(g(X )) = n

i=1 g(xi)pi, (28) E(g(X )) = Z ∞ −∞g(x) fX(x)dx. (29)

A partir de (27), ou da sua equivalente discreta (26), considerando g(X ) igual a Xn, chega-se nas equações (31) e (30) que definem o n-ésimo momento da variável aleatória X .

E(Xn) = n

i=1 xnipi, (30) E(Xn) = Z ∞ −∞ xnfX(x)dx. (31) 2.2.6 Variância e Covariância

Para a análise probabilística que será desenvolvida ao longo deste trabalho, o segundo momento de X será de especial interesse. Mais especificamente, o segundo momento de X em relação a sua própria média, definido conforme a equação a seguir

Var(X ) = E[(X − E[X ])2]. (32)

A variância pode ser lida como o valor esperado do quadrado da distância (desvio) de uma variável aleatória X em relação ao seu próprio valor esperado. Logo, a variância reflete a dispersão, ou espalhamento, dos possíveis valores de X em relação a seu valor esperado. A variância de uma variável aleatória é geralmente escrita como Var(X ), ou simplesmente, σ2.

(38)

Var(X ) =E[(X − E[X ])2]

=E[X2− 2XE[X] + (E[X])2] =E[X2] − 2E[X ]E[X ] + (E[X ])2 =E[X2] − 2(E[X ])2+ (E[X ])2 =E[X2] − (E[X ])2.

(33)

Utilizando a equação (33), pode-se definir a variância para variáveis aleatórias discretas e contínuas como:

Var(X ) = n

i=1 x2ipi− (E[X])2, (34) Var(X ) = Z ∞ −∞ x2fX(x)dx − (E[X ])2. (35)

A raiz quadrada da variância também é de interesse para os estudos de filtragem estocástica e é chamada de desvio padrão ou, simplesmente, σ .

σ =pVar(X ). (36)

Utilizando o exemplo da Figura 11, pode-se calcular a sua variância e seu desvio padrão aplicando (34) e (36). Var(X ) = n

i=1 121 6+ 2 21 6+ 3 21 6+ 4 21 6+ 5 21 6+ 6 21 6− 3,5 2= 35 3 , σ = r 35 3 .

O mesmo pode ser calculado para o caso contínuo da Figura 10, utilizando (35) ao invés de (34). Var(X ) = Z 2π 0 x2 1 2πdθ − π 2= 4π2 3 − π 2= 1 3π 2, σ = r 1 3π 2= 1 3π .

(39)

A partir da noção de variância, pode-se chegar ao que é chamada de covariância entre duas variáveis aleatórias.

Cov(X ,Y ) =E[(X − E[X ])(Y − E[Y ])]

=E[XY − X E[Y ] −Y E[X ] + E[X ]E[Y ]] =E[XY ] − E[X ]E[Y ].

(37)

A covariância pode ser interpretada como uma medida do quanto duas variáveis aleatórias estão relacionadas. Se valores grandes de uma variável aleatória corresponde a valores grandes de outra variável, e o mesmo acontece para valores pequenos, essas variáveis têm uma covariância positiva. Caso valores grandes de uma variável aleatória corresponda a valores baixos de outra variável, e vice-versa, diz-se que essas variáveis têm uma covariância negativa.

Seguindo essa interpretação, pode-se dizer que a covariância é uma medida de dependência linear entre duas variáveis aleatórias. Logo, uma covariância igual a zero significa que duas variáveis aleatórias são independentes. Assim, se duas variáveis aleatórias são independentes, E[XY ] = E[X ]E[Y ], tem-se:

Cov(X ,Y ) = E[XY ] − E[X ]E[Y ] = E[X ]E[Y ] − E[X ]E[Y ] = 0.

2.2.7 Distribuição Normal (Gaussiana)

Como dito anteriormente, a distribuição Gaussiana é uma FDP muito importante para estudos estatísticos de variáveis aleatórias e é definida pela função:

fX(x) =√ 1

2πσ2exp −(x−µ)2

2σ 2 , (38)

em que µ é a média (ou valor esperado) da distribuição, e σ2é a variância da distribuição. Nota-se que essa FDP é completamente definida por sua média e sua variância, logo, uma variável aleatória X com distribuição Gaussiana é comumente descrita como X ∼ N(µ, σ2).

O formato de uma FDP Gaussiana típica é apresentado na Figura 13. Nota-se que se trata de uma função simétrica, com seu ponto mais alto ocorrendo em x = µ, o que é interpretado como sua média sendo o valor mais provável de ocorrer, e com valores cada vez menos prováveis, à medida que a distância com relação a média aumenta. Lembrando que

(40)

a variância é uma medida de dispersão em torno da média, uma distribuição com variância pequena corresponde a uma curva “estreita” e, por outro lado, uma distribuição com variância grande corresponde a uma curva “larga”, como mostrado na Figura 14.

Figura 13: Distribuição gaussiana.

Figura 14: Gaussianas com diferentes parâmetros

Muitos fenômenos naturais tendem a demonstrar uma distribuição de probabilidade próxima da distribuição Gaussiana, o que faz com que ela seja frequentemente utilizada na probabilidade aplicada. Nos capítulos posteriores, a distribuição Gaussiana será utilizada para

(41)

modelar o ruído de medição e o erro de modelagem dos sistemas estudados e será de importância fundamental para o estudo do filtro de Kalman, uma vez que ruídos com distribuição Gaussiana são uma das condições necessárias para seu funcionamento ótimo.

Apesar destas suposições parecerem um tanto quanto não naturais, é sabido que a superposição (soma) de variáveis aleatórias independentes tende a uma distribuição Gaussiana, mesmo se estas variáveis aleatórias possuírem distribuições diferentes da gaussiana. Esse resultado notável é conhecido como teorema do limite central. Uma vez que em aplicações reais, os ruídos que agem sobre um sistema são derivados de pequenas contribuições, oriundos de diferentes fontes, existem boas razões para assumir uma distribuição normal para tais ruídos. Um experimento relativamente simples, que demonstra o teorema do limite central, pode ser realizado da seguinte maneira: imagine que uma variável aleatória seja representada por um dado. Como já mostrado anteriormente, sua distribuição de probabilidade é dada conforme Figura 11, em que cada face do dado tem 16 de chance de cair voltada para cima. A Figura 15 apresenta o histograma resultante do lançamento de um dado 1000 vezes. A medida que o número de vezes que o dado é lançado aumenta, a Figura 15 tende se tornar cada vez mais próximo da Figura 11.

Figura 15: Histograma para 1 dado lançado 1000 vezes.

Segundo o teorema do limite central, ao sobrepor várias variáveis aleatórias, a distribuição de probabilidade resultante tenderá a distribuição normal. Assim, para o lançamento de dois dados, tem-se o histograma da Figura 16a. Como demonstrado anteriormente, para um dado justo, o valor esperado de suas realizações é igual a 3,5, logo,

(42)

para o lançamento de dois dados, o valor esperado é igual a 7, como observado na Figura 16a. A partir da superposição da função de distribuição de dois dados já é possível verificar uma tendência para a validação desse resultado.

Para 3 dados, o histograma resultante se torna semelhante à Figura 16b, em que se nota uma leve semelhança com o formato da distribuição normal.

Finalmente, para 10 e 100 dados, tem-se os histogramas apresentados nas Figuras 16c e 16d, respectivamente.

(a) Histograma para 2 dados lançados 1000 vezes. (b) Histograma para 3 dados lançados 1000 vezes.

(c) Histograma para 10 dados lançados 1000 vezes. (d) Histograma para 100 dados lançados 1000 vezes. Figura 16: Distribuições de probabilidade para diferentes quantidades de dados.

Para o exemplo acima, pode-se imaginar que cada dado representa uma fonte de ruído diferente. Apesar de nenhum ruído ter uma distribuição normal individualmente, quando esses ruídos são sobrepostos, tem-se uma distribuição de probabilidade resultante aproximadamente Gaussiana, como previsto pelo teorema do limite central.

Além das características citadas acima, a distribuição gaussiana possui algumas propriedades matemáticas que a tornam um tanto quanto atraente, no que diz respeito ao seu tratamento matemático.

Dada uma variável aleatória com distribuição gaussiana X ∼ N(µ, σ2), se X passar por uma transformação linear Y = aX + b, o seu resultado Y também terá uma distribuição gaussiana

(43)

do tipo:

Y ∼ N(aµ + b, a2σ2).

Se X1e X2 forem independentes com distribuições X1∼ N(µ1, σ12) e X2∼ N(µ2, σ22),

a soma dessas variáveis aleatórias também terá distribuição gaussiana.

X1+ X2∼ N(µ1+ µ2, σ12+ σ22).

Finalmente, multiplicando as mesmas variáveis aleatórias do exemplo anterior, X1e X2

, a distribuição resultante terá parâmetros iguais a:

σ2= σ 2 1σ22 σ12+ σ22 e µ = µ2σ12+ µ1σ22 σ12+ σ22 .

Esse resultado é bastante importante para o estudo do filtro de Kalman, uma vez que ele mostra como a combinação de duas gaussianas (no caso do filtro, uma representando uma estimativa e a outra representando uma medição) geram uma informação mais precisa a respeito do sistema, ou seja, a variância resultante é menor do que as variâncias individuais que a compuseram. Mais detalhes sobre isso serão vistos no Capítulo 3.

2.3 INTRODUÇÃO A PROCESSOS ESTOCÁSTICOS

Após a definição dos principais conceitos da teoria da probabilidade, busca-se então como aplicá-los para resolver problemas reais. Como citado no Capítulo 1, e no início deste capítulo, utiliza-se a probabilidade para modelar incertezas presentes em um sistema ou em uma observação do sistema (ex: medição de um sensor). Alguns conceitos como ruído gaussiano e sistemas estocásticos foram introduzidos e nesta seção eles serão aprofundados.

Um processo estocástico (ou aleatório) é um modelo matemático utilizado para descrever um sistema dinâmico que evolui no tempo “ao acaso”, ou seja, seu comportamento é regido por uma sucessão de variáveis aleatórias. Formamente, um processo estocástico é um conjunto de variáveis aleatórias que dependem do tempo t e da ocorrência de um dos possíveis resultados ξ do espaço amostral Ω. Para cada valor t, X (t, ξ ) é uma variável aleatória diferente, ou seja, a variável aleatória X (t1, ξ ) é diferente da variável aleatória X (t2, ξ ). Logo, um processo aleatório é definido por um vetor dos valores X (t, ξ ) assumidos por cada variável aleatória.

(44)

Para um valor fixo de t = t0, o valor de X (t0, ξ ) varia em função de todos os valores

possíveis ξ . Mantendo ξ em um valor fixo, X (t) é uma variável em função do tempo. Quando ξ é mantido fixo X (t) é chamado de uma realização do sistema. O conjunto de todas as realizações do processo é chamado ensemble. Para elucidação destes conceitos, a Figura 17 os apresenta de forma visual e simplificada, onde cada ponto representa um possível resultado ξ diferente do espaço amostral.

Figura 17: Processo estocástico.

Um processo estocástico pode ser classificado de forma geral em relação ao tempo e ao valor de x(t, ξ ):

- Discreto no tempo e Discreto em amplitude: t ∈ N e x(t, ξ ) ∈ Z; - Discreto no tempo e Contínuo em amplitude: t ∈ N e x(t, ξ ) ∈ R; - Contínuo no tempo e Discreto em amplitude: t ∈ R e x(t, ξ ) ∈ Z; - Contínuo no tempo e Contínuo em amplitude: t ∈ R e x(t, ξ ) ∈ R.

Para exemplificar, considere que três pessoas estão jogando 3 moedas indefinidamente ao mesmo tempo e anotando o resultado cara (C) ou coroa (K), e com um intervalo de 1s de um arremesso para outro. O espaço amostral Ω deste experimento aleatório pode ser definido como:

(45)

Tal experimento pode ser modelado como um processo aleatório de Bernoulli. Uma variável aleatória de Bernoulli será igual 1 quando o resultado da moeda for igual a coroa (K) com probabilidade de ocorrência p e 0 quando for cara (C) com probabilidade de ocorrência 1 − p.

A Figura 18 mostra as 3 realizações x(t, ξ1), x(t, ξ2) e x(t, ξ3) do processo aleatório

para os primeiros 40 arremessos, sendo que cada realização corresponde ao resultado obtido por cada uma das pessoas. O retângulo verde mostra o valor da variável aleatória X (t = 14, ξ ) para todas as realizações. Conforme a figura, o processo é discreto tanto no tempo quanto nos valores assumidos por cada uma das variáveis aleatórias.

Figura 18: Arremesso das moedas tratado como um processo estocástico de Bernoulli.

Na maior parte das aplicações, os processos estocásticos são considerados ergódicos. Um processo estocástico é considerado ergódico quando o valor esperado entre todas as realizações (do inglês ensemble average) do processo é igual a média temporal de apenas uma realização. A média entre as realizações é o valor esperado do processo aleatório para todos os possíveis valores ξ em um determinado instante t fixo, conforme equação (39), levando em consideração se a variável aleatória analisada é continua ou discreta.

(46)

E(X (t1, ξ )) =    ∑ni=1x(t1, ξi)pi(t1,ξi), VA discreta R∞ −∞x(t1, ξ ) fX(t1,ξ )dx, VA contínua (39)

em que n é número de realizações.

Com relação à Figura 18, o valor esperado da variável aleatória X (t = 14, ξ ) (retângulo verde) é 0,5. Além disso, as variáveis aleatórias possuem a mesma distribuição de probabilidade, logo, o valor esperado de cada uma delas é igual.

A média temporal M é calculada pela equação (40) conforme o domínio do tempo (discreto ou contínuo). M =    1 N∑ N i xi, Tempo discreto 1 T RT 0 X(t)dt, Tempo contínuo (40)

em que N é número de amostras e T o intervalo de tempo (período).

Geralmente, a média das realizações é diferente da média temporal. No entanto, assumir a característica de ergodicidade simplifica a caracterização do processo, considerando que não se conhece as probabilidades de ocorrência para cada valor assumido pelas variáveis aleatórias. A Tabela 1, obtida por meio de simulação computacional, demonstra como a média temporal se mantém em torno da média das realizações (0,5) independente do número de amostras.

Número de Amostras Média Temporal

40 0.5250 200 0.5000 1000 0.5270 2000 0.4985 3000 0.5040 5000 0.4972

Tabela 1: Comparação números de amostras e média temporal para ergodicidade.

Uma outra característica assumida em aplicações é a de estacionariedade. Um processo aleatório é estacionário se a função cumulativa de distribuição de probabilidade da função conjunta de densidade de probabilidade de todas a variáveis aleatórias X (t) não muda em instantes diferentes de tempo. Isto implica que parâmetros como média e variância, os quais caracterizam o processo, não mudem com o tempo. A equação (41) apresenta a definição de forma matemática. A característica de estacionariedade pode ser comparada por analogia com a invariância no tempo na análise de sistemas.

(47)

Fx(x(t1), x(t2), ..., x(tn)) = Fx(x(t1+ τ), x(t2+ τ), ..., x(tn+ τ)), (41)

em que τ é o deslocamento no tempo.

Percebe-se que deslocando o processo de Bernoulli em uma amostra a frente ou atrás (ou n amostras) da Figura 18, ele mantém as mesmas características.

Um dos tipos de processos aleatórios mais importante é o gaussiano. A motivação por trás da distribuição normal foi dada na seção anterior: embora uma fonte de incerteza seja não gaussiana, as combinações de várias fontes de incertezas diferentes levam à distribuição normal. Na seção de introdução, apresentou-se a ideia de que todos os sistemas reais são combinações de efeitos estocásticos e determinísticos. Na grande maioria das aplicações, a parte estocástica é modelada como um processo gaussiano e dá-se o nome de ruído branco gaussiano. O branco vem da analogia com a luz, pois seu espectro de frequência possui todas as cores visíveis com mesma intensidade em todas as componentes de frequência. Assim, o ruído branco possui seu espectro em frequência com mesma intensidade em todas as componentes de frequência do sinal possuindo densidade espectral de potência constante. A Figura 19 apresenta o comportamento temporal do ruído branco gaussiano.

Figura 19: Ruído branco gaussiano.

Neste trabalho, será assumido que o ruído branco age de forma aditiva no sistema conforme apresentado na Figura 20, devido no filtro de Kalman o ruído ser considerado aditivo.

(48)

Figura 20: Ruído branco gaussiano aditivo.

2.4 INTRODUÇÃO A FILTRAGEM ESTOCÁSTICA

Apresentado alguns conceitos importantes da probabilidade, a questão passa a ser qual a importância destes para a filtragem estocástica? De maneira geral, a probabilidade é quem fornece as informações para o filtro sobre o comportamento do ruído. Utilizando estas informações, o filtro buscará diminuir o efeito do ruído de maneira a se aproximar do comportamento determinístico do sistema. Intuitivamente, os valores estimados pelo filtro terão variância menor que os valores medidos do sistema. Além disso, outra pergunta a se fazer é porque utilizar filtragem estocástica. Filtros convencionais como passa-baixas e passa-altas, impedem que sinais de determinadas frequências influenciem no sistema. No entanto, filtros convencionais não impedem que sinais de mesma frequência da frequência de trabalho do sistema interfiram no mesmo. Além disso, não é trivial adicionar mais informações para realizar filtragem do processo utilizando estes tipos de filtros. Nesta situação é necessário

(49)

utilizar um filtro estocástico para diminuir o efeito do ruído, como o filtro de Wiener, o qual é um caso especial do filtro de Kalman.

Resumidamente, a filtragem estocástica é uma abordagem estatística para o problema da filtragem. O objetivo dela é encontrar a estimativa ótima dos estados de um sistema considerando observações ruidosas e dinâmicas incertas do sistema. No próximo capítulo será apresentado de maneira mais ampla os conceitos da filtragem estocástica especialmente no contexto do filtro de Kalman.

(50)

3 FUNDAMENTOS DO FILTRO DE KALMAN

3.1 INTRODUÇÃO

O filtro de Kalman é um estimador aplicado a filtragem de sinais que se popularizou em aplicações científicas de várias áreas do conhecimento. Tal fato ocorreu devido à simplicidade de implementação e ao custo computacional não tão elevado (GREWAL, 2014). Além disso, respeitadas certas hipóteses, o filtro possui a característica de ser o estimador ótimo dos estados e dos parâmetros de um sistema e ainda faz isso de forma recursiva. Alguns destes conceitos foram apresentados no Capítulo 1 de forma introdutória e qualitativa. No entanto, neste capítulo, tais características serão aprofundadas e deduzidas matematicamente com o intuito de trazer um maior entendimento destas alegações. Este capítulo tem o objetivo de trazer as raízes do filtro de Kalman em conjunto com conceitos introdutórios da teoria de estimação com base em (BROWN, 2012), (LEWIS SUDARSHAN DHALL, 2006), e (AGUIRRE, 2007).

O filtro de Kalman é considerado ótimo do mesmo modo que o estimador de mínimos quadrados. No decorrer deste capitulo será apresentada a relação do filtro com o estimador de mínimos quadrados.

3.2 O ESTIMADOR DE MÍNIMOS QUADRADOS

3.2.1 Caso Determinístico

Como introdução ao conceito do estimador de mínimos quadrados considere o seguinte exemplo: imagine que um certo material possua uma resistência elétrica y que varia em função da temperatura x do meio. Imagine agora que, após um experimento em laboratório, foi possível obter os dados conforme mostrados na Figura 21. Analisando o gráfico, deseja-se encontrar uma função matemática que descreva a resistência em função da temperatura, ou seja, uma equação que relacione as duas grandezas. Pelo comportamento dos dados, percebe-se uma relação linear entre elas, a qual poderia ser descrita pela seguinte equação:

(51)

Figura 21: Resistência elétrica x temperatura.

Escolhido o modelo matemático, a questão passa a ser a seguinte: como escolher a reta que melhor representa os dados? Em outras palavras, como determinar os valores de θ0

e θ1, tendo apenas os dados medidos de y e x. A resposta passa pela escolha de um critério

que represente quão bem o modelo se ajusta aos dados medidos. Este critério está relacionado com o erro e de ajuste entre o valor medido de y e o valor de yh previsto pelo modelo em cada

instante de amostragem, isto é, para cada amostra,

e= y − yh. (43)

Ocorre que a escolha de θ0 e θ1 poderia produzir um valor nulo para soma total dos

erros, devido a cancelamentos de valores positivos e negativos de e . Logo, é necessário outro critério para escolher os melhores parâmetros da reta. Este critério é a soma do erro quadrático e evita o resultado nulo mencionado. Se os valores de y e x possuem N amostras, eles podem ser representados por vetores, assim como os parâmetros θ0e θ1também poderiam ser agrupados

em um único vetor ~θ1Logo, o erro também é um vetor de N amostras.

1No texto, vetores serão representados por letras minúsculas ou símbolos matemáticos com uma seta por sobrescrito, como ~v. Letras maiúsculas e negritas, como VVV, são representações de matrizes.

(52)

~y =        y(1) y(2) .. . y(N)        ,~x =        x(1) x(2) .. . x(N)        ,~e =        e(1) e(2) .. . e(N)        e ~θ = " θ0 θ1 #

A soma do erro quadrático, denominada função custo, é representada por:

J= ~eT~e =

N

i=1

e(i)2. (44)

Neste contexto de N amostras, utilizando notação matricial, (42) pode ser reescrita conforme

yh= XXX~θ , (45)

em que XXX é uma matriz de regressores. No caso do modelo linear (42), XXX é definida da seguinte maneira XXX =        1 x(1) 1 x(2) .. . ... 1 x(N)        , XXX ∈ RN×2.

O objetivo é encontrar o valor do vetor de parâmetros ~θ , os quais são θ0 e θ1, que

minimizam J em (44). Inicialmente, escreve-se J em função desses parâmetros, como se segue

J= ~eT~e = (~y − X~θ )T(~y − X~θ ) = (~yT−~θTXT)(~y − X~θ ) = ~yT~y −~yTX~θ − ~θTXT~y +~θTXTX~θ = ~yT~y − 2~θTXT~y +~θTXTX~θ . (46)

Considerando que J é uma função dos parâmetros da reta, para cada valor de θ0 e θ1,

Jassumirá um valor diferente. Para encontrar o mínimo de J, deriva-se J em relação ao vetor ~θ e iguala-se o resultado a zero. Note que, sendo J uma função quadrática, a análise da derivada

(53)

segunda permite a conclusão de se tratar de um mínimo global.

∂ J ∂~θ

= −2XT~y + 2XTX~θ = 0 (47)

Resolvendo (47) para ~θ , obtém-se

~θ = (XTX)−1XT~y. (48)

Aplicando o resultado obtido em (48) no exemplo de resistência e temperatura mencionado anteriormente, tem-se o gráfico da Figura 22. Essa é a solução para o problema de encontrar o vetor de parâmetros que gera o menor valor da soma do erro quadrático J. O modelo (42) é chamado de regressão linear e pode ser estendido para k regressores (49) e possui a mesma solução dada por (48), o que muda são as dimensões da matriz de regressores XXX e do vetor de parâmetros ~θ . Analisando a equação (48) percebe-se que ela é a solução de um sistema linear sobredeterminado, logo para que a solução exista é necessário que o número de amostras Nseja maior que o número de parâmetros a se estimar.

~yh= θ0+ θ1~x1+ θ2~x2+ ... + θk~xk. (49)

Referências

Documentos relacionados

Essa pesquisa tem caráter teórico, exploratório e aplica análise qualitativa de dados. Para este estudo, selecionamos a música “Scar Tissue” da banda “Red Hot

Considerando a dimensão e dispersão territorial das áreas sob gestão pública localizadas nos distritos de Aveiro, Castelo Branco, Coimbra, Guarda, Leiria e Viseu, bem como

Esquema 9 – Representação esquemática da reação de despropargilação mediada por PdNPs em células vivas. a) Neu5proc é utilizado como um análogo do Neu5Ac

Curso de Licenciatura em Letras – Literatura/Inglês/Espanhol Área/subárea de conhecimento: Letras/Teoria Literária – 01 vaga T-24..

A atividade física deve ser estimulada não somente no idoso, mas também no adulto, como forma de prevenir e controlar as doenças crônicas não transmissíveis que aparecem mais

“Nós, representantes do povo brasileiro, reunidos em Assembleia Nacional Constituinte para instituir um Estado Democrático, destinado a assegurar o exercício dos direitos sociais

Dentro dessa análise, vê-se que, a concentração de asfalteno (cuja influência também será analisada nos próximos itens) não tem grande influência na taxa de

A microempresa ou empresa de pequeno porte mais bem classificada poderá apresentar proposta de preço inferior àquela considerada vencedora do certame, situação