• Nenhum resultado encontrado

3.3 Parametrização

3.3.2 Análise dos Componentes Principais

A Análise dos Componentes Principais (ACP) é uma técnica estatística largamente utilizada para diferentes tipos de aplicações como, por exemplo, redução de dimensionali-

Capítulo 3. Análise Espectral e Extração de Parâmetros 24

dade, compressão de dados, extração de parâmetros e visualização de dados (JOLLIFFE, 2002).

Entre alguns trabalhos utilizando esta técnica pode-se destacar o trabalho de Marwala et al. (2006) sobre detecção de falhas em rolamentos em que ACP foi utilizada para a redução da dimensão dos parâmetros extraídos do sinal antes de serem aplicados para classificação através de GMM.

Paiva et al. (2012) propõem uma abordagem de projeto de parâmetro robusto multivariado para a otimização do processo de torneamento. Nesta proposta, a ACP é utilizada sobre as respostas obtidas através de um projeto experimental para posterior- mente serem efetuadas análises sobre os respectivos escores das respostas.

Podem-se encontrar duas definições mais usuais para a ACP, que deram origem ao mesmo algoritmo (BISHOP, 2006). Uma delas foi proposta por Hotelling (1933) e trata a ACP como uma projeção ortogonal dos dados em direção a um espaço linear de menor dimensão, conhecido como subespaço principal, de forma que a variância do dado projetado seja maximizada. De forma equivalente, pode-se defini-la como a projeção linear que minimiza o custo médio da projeção, definida como a distância média quadrática entre todos os pontos da projeção (PEARSON,1901). O processo de projeção ortogonal é ilustrado na Figura 3.6. A linha central, paralela ao indicador 𝑢1, representa o subespaço

principal no qual a projeção (linhas menores perpendiculares) dos pontos para a reta maximizam a variância dos dados. Os pontos sobre esta linha central representam os dados projetados. Outra forma de analisar a mesma figura é através da minimização da soma dos quadrados dos erros das projeções (linhas menores perpendiculares).

Figura 3.6 – Exemplo do processo de projeção ortogonal para dados com duas variáveis. Fonte: (BISHOP, 2006).

A formulação adotada neste trabalho se baseia na maximização da variância dos dados e será detalhada a seguir.

Capítulo 3. Análise Espectral e Extração de Parâmetros 25

3.3.2.1 Formulação Baseada na Maximização da Variância

Considere um conjunto de observações {x𝑛}, em que 𝑛 = 1, . . . , 𝑁 , e x𝑛 é uma variável Euclidiana com dimensionalidade 𝐷. O objetivo é projetar o conjunto de dados na direção de um espaço com dimensionalidade 𝑀 < 𝐷 de forma a maximizar a variância dos dados projetados. Para as análises iniciais nesta seção, foi considerado que o valor de

𝑀 é conhecido e, na sequência, são apresentadas técnicas para sua obtenção.

Em uma análise inicial, pode-se considerar a projeção para um espaço unidimensi- onal 𝑀 = 1. A direção deste espaço pode ser definida através de um vetor 𝐷-dimensional denominado u1, que por conveniência (e sem perda de generalidade) pode ser definido

como um vetor unitário, de forma que uT

1u1 = 1. Vale ressaltar ainda que o importante

é a direção do vetor u1 e não sua magnitude. Cada ponto x𝑛 do conjunto de dados é projetado para um valor escalar uT

1x𝑛. O valor médio de todos os dados projetados pode ser obtido fazendo uT

1x¯𝑛, em que ¯x𝑛 é a média do conjunto de amostras calculado por: ¯ x𝑛 = 1 𝑁 𝑁 ∑︁ 𝑛=1 x𝑛 (3.12)

e a variância dos dados projetados é dada por: 1 𝑁 𝑁 ∑︁ 𝑛=1 {uT 1x𝑛− uT1x¯𝑛}2 = uT1Su1 (3.13)

em que S é a matriz de covariância dos dados obtida através da seguinte equação:

S = 1 𝑁 𝑁 ∑︁ 𝑛=1 (x𝑛− ¯x𝑛)(x𝑛− ¯x𝑛)T. (3.14) Então, basta maximizar a variância projetada uT1Su1 em relação a u1. Para evitar

que ||u1|| → ∞, deve-se efetuar uma otimização restrita utilizando como restrição a

condição de normalização u𝑇

1u1 = 1. É possível reformular o problema utilizando um

multiplicador de Lagrange, definido como 𝜆1, tornando-o uma otimização sem restrições

da forma:

uT1Su1+ 𝜆1(1 − uT1u1). (3.15)

Fazendo a derivada em relação a u1 igual a zero, é possível identificar que ocorrerá

um ponto estacionário quando:

Su1 = 𝜆1u1 (3.16)

o que significa que u1 deve ser um autovetor de S. Multiplicando ambos os lados por uT

e utilizando a normalização u𝑇u = 1, pode-se obter a variância através da equação:

uTSu1 = 𝜆1 (3.17)

e portanto, a variância será máxima quando u1 for configurado para ser o autovetor com

Capítulo 3. Análise Espectral e Extração de Parâmetros 26

Componentes principais adicionais podem ser definidos de forma incremental, ou seja, escolhendo cada nova direção de forma que maximize a variância projetada entre todas as possíveis direções ortogonais às direções já definidas. Generalizando para o caso de um espaço de projeção 𝑀 -dimensional, a projeção linear ótima para a qual a variância é maximizada é definida pelos 𝑀 autovetores u1, . . . , u𝑀 da matriz de covariância dos dados, S, correspondendo aos maiores autovalores 𝜆1, . . . , 𝜆𝑀.

Resumindo, a análise dos componentes principais envolve a avaliação da média ¯

x𝑛 e da matriz de covariância S do conjunto de dados e, então, a determinar os 𝑀 au- tovetores de S que correspondem aos 𝑀 maiores autovalores. Algoritmos para obtenção de autovetores e autovalores, assim como teoremas sobre a decomposição de autovetores, podem ser encontrados em Golub e Van Loan(1996). Pode-se dizer que o custo computa- cional pra se realizar a decomposição de todos os autovetores de uma matriz de tamanho

𝐷 × 𝐷 é 𝑂(𝐷3). Por outro lado, para achar a projeção dos dados sobre apenas os primei-

ros 𝑀 componentes principais, é necessário apenas calcular os primeiros 𝑀 autovalores e autovetores, que pode ser obtido com técnicas mais eficientes resultando em um tempo computacional 𝑂(𝑀 𝐷2). De forma geral, as etapas necessárias para o análise ACP pode

ser definida como:

1. calcular a matriz de covariância do conjunto de dados;

2. calcular os autovetores e os autovalores da matriz de covariância;

3. reter os componentes principais no qual a explicação acumulada da estrutura variância- covariância seja pelo menos 90%;

4. projetar os dados originais sobre os autovetores reduzidos obtendo os respectivos escores, e consequentemente reduzindo a dimensão dos dados.

3.3.2.2 Aplicação de ACP para Pré-Processamento de Dados

Em algumas aplicações o objetivo principal não está apenas na redução da dimen- sionalidade dos dados mas também em extrair propriedades significativas do conjunto de dados. Isto pode ajudar na aplicação de algoritmos de reconhecimento de padrões (classificação) de forma mais satisfatória. Normalmente, utiliza-se esta técnica quando as variáveis são medidas em diferentes unidades ou possuem variabilidade significativamente diferentes (BISHOP,2006).

Em casos como este, pode-se redimensionar as variáveis individualmente, de forma que cada uma tenha média zero e variância unitária. Este processo é conhecido como normalização (do inglês: standardizing) no qual a matriz de covariância para dados nor-

Capítulo 3. Análise Espectral e Extração de Parâmetros 27

malizados tem componentes do tipo

𝜌𝑖𝑗 = 1 𝑁 𝑁 ∑︁ 𝑛=1 (𝑥𝑛𝑖− ¯𝑥𝑖) 𝜎𝑖 (𝑥𝑛𝑗− ¯𝑥𝑗) 𝜎𝑗 (3.18)

em que 𝜎𝑖 é o desvio padrão de 𝑥𝑖 e 𝜎𝑗 é o desvio padrão de 𝑥𝑗. Conhecida como matriz de correlação dos dados originais, tem como propriedade apresentar 𝜌𝑖𝑗 = 1 quando duas variáveis 𝑥𝑖 e 𝑥𝑗 são perfeitamente correlacionadas, e 𝜌𝑖𝑗 = 0 caso sejam descorrelaciona- das.

A normalização de dados pode ser feita de uma forma mais adequada utilizando ACP, resultando em dados com média zero e covariância unitária de forma que as diferen- tes variáveis se tornem descorrelacionadas. Para isto é preciso escrever a Equação (3.16) para os autovetores na forma:

SU = UL (3.19)

no qual L é uma matriz diagonal com os elementos 𝜆𝑖 e dimensão 𝐷 × 𝐷, e U é uma matriz ortogonal com colunas formadas pelos elementos u𝑖 e também de dimensão 𝐷 × 𝐷. Portanto, pode-se definir para cada elemento do conjunto de dados, um valor transformado dado por:

y𝑛 = L−1/2UT(x𝑛− ¯x) (3.20)

em que ¯x é a média das amostras obtida pela Equação (3.12). Claramente, o conjunto {y𝑛} possui média 0 e sua matriz de covariância é representada pela matriz identidade, o que que pode ser demonstrado através da seguinte equação:

1 𝑁 𝑁 ∑︁ 𝑛=1 y𝑛yT𝑛 = 1 𝑁 𝑁 ∑︁ 𝑛=1 L−1/2UT(x𝑛− ¯x)(x𝑛− ¯x)TUL−1/2 = L−1/2UTSUL−1/2 = L−1/2LL−1/2= I. (3.21)

Esta operação é conhecida como whitening (BISHOP, 2006).

3.4

CONSIDERAÇÕES FINAIS SOBRE O CAPÍTULO

Neste capítulo, discutiram-se diferentes maneiras de extrair parâmetros de sinais acústicos. Foram apresentadas as etapas necessárias a fim de preparar o sinal para a fase de parametrização, efetuando sua conversão do domínio do tempo para o domínio da frequência. Posteriormente, foram detalhadas as principais técnicas de parametriza- ção apresentando as deduções matemáticas e características de cada um dos métodos propostos: o MFCC e a ACP.

28

4 ALGORITMOS E TÉCNICAS DE CLASSIFICAÇÃO

4.1

CONSIDERAÇÕES INICIAIS

Neste capítulo, apresenta-se a fundamentação teórica de duas técnicas de aprendi- zado de máquinas utilizadas para a classificação ou diagnóstico, o GMM e o SVM. Cada técnica é detalhada se destacando os passos necessários para o treinamento (estimação do modelo) e para classificação (diagnóstico).

O intuito principal deste capítulo está no entendimento de como funciona o pro- cesso de treinamento destes classificadores, destacando a importância de fornecer infor- mações relevantes sobre o sistema a ser modelado através dos parâmetros de entrada.