• Nenhum resultado encontrado

Preparação dos dados e extração de atributos

5. Análise de Frequência e Reconhecimento de Padrões

5.4. Preparação dos dados e extração de atributos

Os dados resultantes dos ensaios, em formato CSV (comma separated values), foram importados para o Matlab. Procedeu-se ao traçar das ondas de forma a se visualizar a que índices correspondiam as janelas temporais de interesse, ou seja, onde se localizavam as oscilações correspondentes à receção das ondas refletidas no domínio do tempo. Uma vez que a distância entre os sensores e os ramos foi mantida aproximadamente constante, verificou-se ser razoável isolar a mesma janela temporal de todas as amostragens. Todos os processos descritos deste ponto em diante neste capítulo foram realizados através de scripts de Matlab. Interessava então passar os sinais para o domínio da frequência de forma a se obter atributos discretos capazes de descrever os mesmos. O algoritmo mais frequentemente utilizado para o fazer é a transformada rápida de Fourier (Fast Fourier

Transform, FFT). Com estes algoritmos, a resolução de frequência é dada pela razão entre

o número de pontos que constitui o sinal no domínio do tempo e a frequência de amostragem com que este foi digitalizado. Para que se atingisse uma resolução de cerca de 100 Hz, estenderam-se os vetores dos sinais com elementos nulos, um processo chamado de zero

padding. De facto, apontou-se para que a dimensão do vetor fosse a potência de 2 mais

próxima da dimensão que daria os 100 Hz de resolução, já que assim a velocidade do cálculo é significativamente superior. Ainda que de um ponto de vista puramente lógico faça sentido desejar-se uma resolução tão elevada quanto possível, permitindo apontar bandas de frequências estreitas, caso se detete algum padrão, isto pode não se revelar positivo quando se trata de aplicar algoritmos de aprendizagem de máquina. Um dos aspetos mais fulcrais dos sistemas de classificação com algoritmos de aprendizagem de máquina, é que estes apresentem capacidade de generalização, ou seja, que quando utilizados para avaliar dados nunca antes vistos, demonstrem uma tendência para reproduzir resultados semelhantes aos observados com os dados de treino, tidos em consideração para avaliar o seu desempenho aquando da sua construção.

Com o aumento da complexidade e flexibilidade dos modelos preditivos, a sua capacidade de generalização tende a diminuir, uma vez que estes passam a seguir com demasiada proximidade todos os detalhes observados durante a fase de treino, incluindo ruído e possíveis anomalias, em vez de seguirem características realmente diferenciadoras entre os casos que se pretende distinguir. Se um modelo complexo, flexível, for treinado em diferentes conjuntos de treino, o seu desempenho sobre dados nunca antes vistos tende a variar significativamente, o que não é desejado. Por outro lado, com a diminuição da flexibilidade, o enviesamento, i.e., a diferença entre os outputs produzidos e os valores reais tende a aumentar, pois, uma vez que a relação entre o output ideal e os atributos tende a ser pouco linear, um modelo simples tende a ser pouco representativo das relações que se pretendem capturar. No caso da classificação binária, o enviesamento pode ser entendido a partir de uma perspetiva bayesiana, com base nas probabilidades posteriores atribuídas. Corresponde ao módulo da diferença entre a probabilidade posterior atribuída, e 1 no caso da observação pertencer ao caso positivo, ou 0 caso pertença ao caso negativo. A partir do ponto em que o aumento de complexidade leva a que os valores das métricas de desempenho observadas sobre o conjunto dos dados de treino novos se comecem a afastar dos valores observados sobre dados de teste, em vez de se aproximar, diz-se que ocorreu

overfitting (sobreajuste). Na escolha entre modelos de classificação existe então um

compromisso entre enviesamento e variância. O ideal é encontrar um modelo que minimize simultaneamente ambas as grandezas, pelo que normalmente se procede à avaliação de modelos de diferentes níveis de complexidade.

Obviamente, um dos fatores que contribui para a complexidade do modelo é o número de atributos com o qual é treinado. Assim, uma maior resolução na passagem dos sinais ao domínio da frequência tem por consequência um aumento da complexidade e flexibilidade dos modelos resultantes. Tendo isto em consideração, todo o processo de construção e investigação de algoritmos foi realizado com os dados originais e em paralelo com os dados com zero padding, para que se possa posteriormente proceder a uma avaliação comparativa. Decidiu-se ainda gerar os atributos através do método de Welch, um método de cálculo de densidade espetral de potência, o qual apresenta uma resolução geralmente superior à da FFT, mesmo sem zero padding, igual à dimensão do vetor do sinal a avaliar. No limite, tende a diminuir o efeito do ruído e da dispersão espetral, contudo a complexidade dos modelos classificadores resultantes vem mais uma vez acrescida. Os métodos de estimativa de densidade espetral tratam de potência, apresentando as correspondentes amplitudes uma ordem acima das do conteúdo espetral calculadas pela FFT, pelo que apresentam potencial para acentuar mais as ténues divergências entre casos com e sem fruto, e assim facilitar o seu reconhecimento por parte dos algoritmos de classificação. Para que se reduza a dispersão espetral e o consequente surgimento de lóbulos laterais em ambos os métodos, aplica-se uma janela de Hamming a cada amostragem antes do cálculo da transformada. Para esta primeira abordagem considerou-se apenas investigar a possibilidade de deteção de frutos, e não a extração de uma estimativa da distância radial a que os mesmos se localizam, o que à partida representaria um desafio adicional. Assim, de forma a uniformizar as amostragens e tornar os resultados independentes de amplitude dos sinais, dependendo sim exclusivamente do seu conteúdo espetral em termos proporcionais, procedeu-se à normalização de 0 a 1 de ambos os tipos de espetro.