• Nenhum resultado encontrado

Localização de fontes baseada em sinais acústicos sujeitos a ruído impulsivo

N/A
N/A
Protected

Academic year: 2021

Share "Localização de fontes baseada em sinais acústicos sujeitos a ruído impulsivo"

Copied!
119
0
0

Texto

(1)

UNIVERSIDADEFEDERALDO RIO GRANDE DO NORTE

UNIVERSIDADEFEDERAL DORIOGRANDE DO NORTE

CENTRO DETECNOLOGIA

PROGRAMA DEPÓS-GRADUAÇÃO EMENGENHARIAELÉTRICA E DECOMPUTAÇÃO

Localização de Fontes Baseada em Sinais

Acústicos Sujeitos a Ruído Impulsivo

Danilo de Santana Pena

Orientador: Prof. Dr. Allan de Medeiros Martins

Tese de Doutorado apresentada ao Pro-grama de Pós-Graduação em Engenharia Elétrica e de Computação da UFRN (área de concentração: Automação e Sistemas) como parte dos requisitos para obtenção do título de Doutor em Ciências.

Número de ordem PPgEEC: D242

Natal, RN, maio de 2019

(2)

Pena, Danilo de Santana.

Localização de fontes baseada em sinais acústicos sujeitos a ruído impulsivo / Danilo de Santana Pena. - 2019.

119 f.: il.

Tese (doutorado) - Universidade Federal do Rio Grande do Norte, Centro de Tecnologia, Programa de Pós-Graduação em Engenharia Elétrica e de Computação, Natal, RN, 2019. Orientador: Prof. Dr. Allan de Medeiros Martins.

1. Canais acústicos - Tese. 2. Direção de chegada - Tese. 3. Ruído impulsivo - Tese. 4. Transformação não-linear - Tese. I. Martins, Allan de Medeiros. II. Título.

RN/UF/BCZM CDU 534

Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede

(3)

Localiza~ao de Fontes Baseada em Sinais

Acusticos Sujeitos a Ruido Impulsivo

Danilo de Santana Pena

Tese de Doutorado aprovada em 14 de maio de 2019 pela banca examinadora composta pelos seguintes membros:

Prof. Dr. Allan de Medeiros Martins (orientador) ... DEE/UFRN

Prof. Dr. Vicente Angelo de sa Junior ... ... DCO/UFRN

Prof. Dr. Walter da Cruz Freitas Junior ... UFC

(4)
(5)

À minha esposa, Juliane, pelo

incentivo e paciência durante a

realização deste trabalho.

(6)
(7)

Agradecimentos

Inicialmente ao meu orientador, Prof. Allan de Medeiros Martins, e ao Prof. Vicente Angelo de Sousa Junior pela confiança, ajuda e inspiração que me deram desde antes do início do meu doutorado. Sou grato a Universidade Federal do Rio Grande do Norte, ao Grupo de Pesquisa em Prototipagem Rápida de Soluções para Comunicação (GppCom) e ao Laboratório de Instrumentação e Microeletrônica (LIME) pelo suporte que me foi fornecido durante meu trabalho.

À minha esposa Juliane Lima e ao meu enteado Humberto Ximenes, fontes de inspiração e motivo de toda minha dedicação. Aos meus familiares, em especial aos meus pais, Zenilton e Marilu, que me deram sempre o apoio necessário para minha educação. Ao meu irmão, Luan Pena, que contribuiu diretamente neste trabalho.

Aos professores e pesquisadores do Laboratório de Arquiteturas Paralelas para Proces-samento de Sinais (LAPPS) pelas contribuições diretas e indiretas para realização deste trabalho. Aos membros do grupo GppCom pelo auxílio na pesquisa realizada.

Aos amigos pelos incentivos, pela paciência e compreensão de ausências, que ocorreram devido aos momentos de dedicação exclusiva ao trabalho.

Ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) pela bolsa concedida, fundamental para a conclusão deste trabalho.

(8)
(9)

Resumo

O canal acústico tem recebido muita atenção nos últimos anos devido a diversas apli-cações e tecnologias emergentes. Como resultado, pesquisadores têm considerado canais acústicos realísticos para o estudo dos métodos de localização de fonte. Assim, este trabalho apresenta um método de diferença de tempo de chegada (Time Difference of Arrival -TDOA) para canais acústicos impulsivos baseado em transformação não-linear de dados. Os métodos TDOA são avaliados em diferentes cenários utilizando dados sintéticos e reais. Além disso, os modelos de ruído impulsivo não-Gaussiano são analisados em dife-rentes ambientes com medições por meio de um setup experimental.

Palavras-chave: Canais acústicos. Direção de chegada. Ruído impulsivo. Transfor-mação não-linear.

(10)
(11)

Abstract

The acoustic channel has received much attention in recent years due to many applica-tions and some emerging technologies. As a result, researchers have considered realistic acoustical channels for studying of the source localization methods. Therefore, this work presents an approach of time difference of arrival (TDOA) for the impulsive acoustic channels based on non-linear data transform. The TDOA methods are evaluated in diffe-rent scenarios using synthetic and real data. Moreover, the non-Gaussian impulsive noise models are analyzed in the various environment with measurement using an experimental setup.

Keywords: Acoustic channel. Direction-of-Arrival. Impulsive noise. Non-linear transformation.

(12)
(13)

Sumário

Sumário i Lista de Figuras v Lista de Tabelas ix Lista de Abreviaturas xi 1 Introdução 1 1.1 Motivação . . . 2

1.2 Principais Desafios de Localização em Sinais Acústicos . . . 3

1.3 Escopo e Contribuições do Trabalho . . . 5

1.3.1 Hipótese de Pesquisa . . . 6

1.3.2 Produtos Tangíveis da Pesquisa . . . 7

1.3.3 Questões da Pesquisa . . . 7

1.4 Organização do Texto . . . 7

2 Localização de Fontes Acústicas 9 2.1 Considerações Gerais . . . 10 2.2 Arranjo de Sensores . . . 11 2.3 Estratégias de Localização . . . 11 2.3.1 AOA . . . 13 2.3.2 TDOA . . . 14 2.4 Canal de Comunicação . . . 15 2.5 Tipos de Fonte . . . 16 2.6 Conclusão . . . 16

3 Caracterização do Ruído Impulsivo 19 3.1 Estimações de Parâmetros . . . 19

3.1.1 Estimação dos Parâmetros GMM . . . 19

3.1.2 Estimação dos Parâmetros α-estável . . . 20

3.2 Setup Experimental . . . 22

3.3 Resultados e Análises . . . 23

3.3.1 Análise dos Cenários . . . 23

3.3.2 Análise da PSD . . . 28

3.3.3 Ajuste de PDF . . . 28 i

(14)

3.3.4 Análise do Número de Amostras . . . 33

3.3.5 Teste de Estacionariedade . . . 37

3.4 Conclusão . . . 40

4 Soluções TDOA para Sinais Acústicos 41 4.1 Soluções Clássicas . . . 41 4.1.1 Método de Fourier . . . 41 4.1.2 GCC (Generalized Cross-Correlation) . . . 42 4.1.3 GCC-PHAT . . . 44 4.1.4 GCC-ROTH . . . 44 4.1.5 GCC-SCOT . . . 45 4.1.6 Outros Métodos . . . 45 4.2 Solução do Estado-da-Arte . . . 45 4.2.1 FLOC . . . 46 4.3 Solução Proposta . . . 46 4.3.1 Funções Não-Lineares . . . 47 4.3.2 GCC-NLT . . . 48 4.4 Conclusão . . . 51

5 Análise de Desempenho da Solução Proposta 53 5.1 Considerações Iniciais . . . 53 5.2 Simulador . . . 54 5.3 Análises . . . 56 5.3.1 Análise da Resolução . . . 57 5.3.2 Análise da Impulsividade . . . 58 5.3.3 Análise de Robustez . . . 63 5.3.4 Avaliação do Estado-da-Arte . . . 64

5.3.5 Avaliação do Método Proposto . . . 65

5.3.6 Análise de Custo Computacional . . . 67

5.4 Conclusões . . . 67 6 Experimentos e Resultados 69 6.1 Setup Experimental . . . 69 6.2 Arranjo de Microfones . . . 70 6.2.1 Campo Próximo . . . 73 6.2.2 Campo Distante . . . 76 6.3 Análise de Desempenho . . . 77 6.4 Conclusões . . . 79 7 Conclusão 81 7.1 Vantagens e Desvantagens do Método Proposto . . . 81

7.2 Questões da Pesquisa . . . 82

7.3 Trabalhos Futuros . . . 83

(15)

A Simulador SimPatico 89

A.1 Parâmetros . . . 89

A.2 Algoritmos . . . 91

A.3 Modelos de Canal . . . 91

A.4 Tipos de Sinais . . . 93

B Tangente Hiperbólica 95 B.1 Propriedades . . . 95

(16)
(17)

Lista de Figuras

1.1 Prospecção tecnológica. . . 3

1.2 Número de patentes publicadas com o termo “Smart Speaker”. . . 4

1.3 Ilustração de ruído impulsivo em sinal de áudio. . . 5

2.1 Classificação dos sistemas de localização. . . 10

2.2 Modelos de arranjos de sensores. . . 12

2.3 Estratégias de localização. . . 13

2.4 Arranjo linear uniforme. . . 14

3.1 Setup de medição experimental. . . 22

3.2 Cenário indoor: Auditório acusticamente isolado sem ruído de áudio ex-terno. . . 23

3.3 Comportamento do sinal no cenário indoor sem fonte de áudio. . . 24

3.4 Comportamento do sinal no cenário indoor com uma pessoa se movendo e falando. . . 25

3.5 Cenário hall: Um ambiente entre indoor e outdoor no corredor do auditório. 25 3.6 Comportamento do sinal no cenário hall sem fonte de áudio. . . 25

3.7 Comportamento do sinal no cenário hall com uma pessoa se movendo e falando. . . 26

3.8 Cenário outdoor: Externo ao auditório com ruído originado do ambiente externo. . . 26

3.9 Comportamento do sinal no cenário outdoor sem fonte de áudio. . . 27

3.10 Comportamento do sinal no cenário outdoor com uma pessoa se movendo e falando. . . 27

3.11 PSD dos dados medidos em todos os cenários (sem fonte de áudio). . . . 28

3.12 PSD no cenário indoor com duas janelas: (i) com impulsividade severa; e (ii) com impulsividade moderada. . . 29

3.13 PSD dos dados medidos em todos os cenários (tom de 1 kHz de fonte de áudio). . . 30

3.14 Ilustração do ajuste do GMM com duas Gaussianas (dados do cenário outdoorem um janela de tempo com impulsividade severa). . . 31

3.15 Ilustração do ajuste de PDF para todos os modelos (dados do cenário outdoorem uma janela de tempo com impulsividade severa). . . 32

3.16 Cenário indoor: Comparação visual do ajuste entre Gaussiana, GMM, e SαS. . . 32 3.17 Cenário hall: Comparação visual do ajuste entre Gaussiana, GMM, e SαS. 33

(18)

3.18 Cenário outdoor: Comparação entre a distribuição dos dados e os

mode-los estimados Gaussiano e SαS. . . 34

3.19 Variância do parâmetro α estimado versus largura da janela. . . 35

3.20 Ilustração da estimação sem sobreposição. . . 35

3.21 Ilustração da estimação com sobreposição. . . 36

3.22 Estimação do modelo Gaussiano: Janela com 1.500 amostras com 10% de sobreposição. . . 37

3.23 Estimação do modelo GMM: Janela com 1.500 amostras com 10% de sobreposição. . . 38

3.24 Estimação do modelo SαS: Janela com 1.500 amostras com 10% de so-breposição. . . 38

3.25 Auto-covariância dos dados medidos para todos os cenários (sem fonte de áudio). . . 39

4.1 Correlação generalizada. . . 44

4.2 Função sigmóide com diferentes valores de δ. . . 47

4.3 Funções Sigmóides. . . 48

4.4 Comparação entre as funções não-lineares. . . 49

4.5 Similaridade dos sinais de recebidos. . . 50

4.6 Relação entre sinal recebido e sua versão transformada. . . 51

5.1 Simulador SimPatico. . . 55

5.2 Sequência de Zadoff-Chu com R = 25 e N = 353. . . 57

5.3 Comparação dos métodos GCC em diferentes cenários. . . 57

5.4 RMSE no cenário AWGN com diferentes frequências de amostragem. . . 59

5.5 Probabilidade de resolução no cenário AWGN com frequência de amos-tragem igual a 48 kHz. . . 59

5.6 Comparação dos métodos TDOA no cenário AWGN. . . 60

5.7 Avaliação dos métodos em RMSE no modelo α-estável (α = 1.9). . . 60

5.8 Avaliação dos métodos em RMSE no modelo α-estável (α = 1.7). . . 61

5.9 Avaliação dos métodos em RMSE no modelo α-estável (α = 1.5). . . 61

5.10 Avaliação dos métodos em RMSE no modelo α-estável (α = 1.3). . . 62

5.11 Comparação do RMSE (dB) dos métodos TDOA no modelo SαS. . . 62

5.12 Avaliação dos métodos em RMSE no modelo GMM (ρ = 10). . . 63

5.13 Avaliação dos métodos em RMSE no modelo GMM (ρ = 100). . . 64

5.14 Avaliação da robustez dos métodos em RMSE (dB) no modelo SαS (α = 1.7). . . 64

5.15 Avaliação dos métodos FLOC com diferentes valores de p no modelo SαS (α = 1.3). . . 65

5.16 Avaliação dos métodos FLOC com diferentes valores de p no modelo SαS (α = 1.7). . . 65

5.17 Avaliação dos métodos GCC-NLT com diferentes funções não-lineares do tipo sigmóide no modelo SαS. . . 66

(19)

6.2 Placa ReSpeaker com quatro microfones. . . 71

6.3 Equipamento NI-6361 da National Instruments. . . 72

6.4 Exemplo de estimação de atraso de tempo com três microfones. . . 72

6.5 Posicionamento do ReSpeaker. . . 73

6.6 Cálculo do primeiro atraso. . . 74

6.7 Cálculo do segundo atraso. . . 75

6.8 Cálculo do terceiro atraso. . . 76

6.9 Ruído correlacionado entre canais de medição. . . 78

A.1 Diretórios de códigos do Simulador SimPatico. . . 90

(20)
(21)

Lista de Tabelas

2.1 Comparação entre as estratégias de localização. . . 17

2.2 Analogia entre as estratégias de localização. . . 17

3.1 Parâmetros estimados para Gaussiana, GMM, e modelo α-estável. . . 30

3.2 Desempenho dos ajustes de PDF dos dados por meio do RMSE. . . 33

3.3 Teste KPSS de estacionariedade para todos os cenários (sem fonte de áudio). 39 5.1 Parâmetros constantes de simulação. . . 54

5.2 Custo computacional. . . 67

6.1 Erro devido a aproximação do campo distante. . . 77

6.2 Desempenho em RMSE dos métodos em avaliação experimental. . . 78

6.3 Probabilidade de Resolução com ξ = 6◦dos métodos em avaliação expe-rimental. . . 78

A.1 Parâmetros do simulador. . . 92

A.2 Modelos de ruído do simulador. . . 93

(22)
(23)

Lista de Abreviaturas

ADC Conversor Analógico-Digital (Analog-to-Digital Converter)

AOA Ângulo de Chegada (Angle-Of-Arrival)

CDF Função de Distribuição Acumulada (Cumulative Distribution Function)

DTFT Transformada de Fourier de Tempo Discreto (Discrete-Time Fourier Transform)

EM (Expectation-Maximization)

ESPRIT Estimação de Parâmetros de Sinais via Técnicas de Invariância Rotacional (Es-timation of Signal Parameters via Rotation Invariance Techniques)

FLOC Covariância Fracionária de Baixa Ordem (Fractional Lower Order Covariance) GAWGN Modelo Gaussiano Gatilhado (Gated Additive White Gaussian Noise)

GCC Correlação Cruzada Generalizada (Generalized Cross Correlation)

GFLOC Covariância Fracionária de Baixa Ordem Generalizada (Generalized Fractional Lower Order Covariance)

GMM Modelo de Mistura de Gaussianas (Gaussian Mixture Model)

GSNR Relação Sinal-Ruído Geométrica (Geometric Signal-to-Noise Ratio)

HMM Modelo Oculto de Markov (Hidden Markov Models)

HVAC (Heating, Ventilation, and Air Conditioning) KPSS Kwiatkowski, Phillips, Schmidt, and Shin

MLE Estimação por Máxima Verossimilhança (Maximum Likelihood Estimation)

MMSE Mínimo Erro Médio Quadrático (Minimum Mean Square Error)

MUSIC Classificação de Sinais Múltiplos (MUltiple SIgnal Classification) NLT Transformação Não-Linear (Non-Linear Transformation)

PDF Função Densidade de Probabilidade (Probability Density Function)

PHAT Transformação de Fase (PHAse Transform)

(24)

PSD Densidade Espectral de Potência (Power Spectrum Density) RMSE Raiz do Erro Médio Quadrático (Root Mean Squared Error) RSS Potência do Sinal Recebido (Received Signal Strength) SαS α-Estável Simétrica (Symmetric α-Stable)

SCOT (Smoothed COherence Transform)

SimPatico Plataforma de Simulação para Avaliação de Localização de Posição (Simula-tion PlAtform for PosiTIon LoCatiOn Evalua(Simula-tion)

SNR Relação Sinal-Ruído (Signal-to-Noise Ratio)

STFT Transformada Curta de Fourier (Short Time Fourier Transform) TDE Estimação de Atraso de Tempo (Time Delay Estimation) TDOA Diferença de Tempo de Chegada (Time Difference Of Arrival) TOA Estimação de Tempo de Chegada (Time-Of-Arrival)

TOF Estimação de Tempo de Voo (Time-Of-Flight)

UCA Arranjo Circular Uniforme (Uniform Circular Array) ULA Arranjo Linear Uniforme (Uniform Linear Array)

(25)

Capítulo 1

Introdução

O problema de localização de posição de fontes pode ser formulado como a estima-ção da localizaestima-ção de fonte(s) no espaço, de um ponto de interesse em um sistema de coordenadas com relação a uma referência (Munoz et al. 2009). Os primeiros sistemas de localização foram baseados em instrumentos de medição de tempo, para navegação ou astronomia. Apesar de pouca acurácia e algumas limitações, esses sistemas foram cruciais para o avanço no desenvolvimento de ferramentas que auxiliassem a localização, como por exemplo, os mapas. Os sistemas modernos de localização ainda utilizam os pa-râmetros da distância e ângulo, que podem ser obtidos indiretamente por meio de outros parâmetros tais como potência do sinal recebido, tempo de chegada, diferenças de tempo de chegada e diferenças de fase. Com o avanço da tecnologia, não houve apenas melhoria na velocidade de obtenção desses parâmetros, como houve também melhoria na acurácia e precisão da aquisição. Novas arquiteturas propiciaram um bom equilíbrio entre os re-quisitos dos sistemas, limitações e custos associados, permitindo o uso da localização em novas aplicações.

Os arranjos de sensores são utilizados para extrair a informação da posição das fontes com o objetivo de realizar a localização, pois estes possuem vantagens em relação aos sistemas de um único sensor. Os arranjos podem auxiliar na obtenção de sinal de alta qualidade de uma posição desejada, atenuando interferências de ruído do ambiente ou de outras fontes, pois um arranjo supera um único sensor bem posicionado e altamente direcional (Brandstein 1995). Com o arranjo não se necessita de preocupação com posi-cionamento ou manipulação e movimento físico dos microfones, mesmo para múltiplas fontes e fontes que se movem. Por fim, os arranjos possuem a capacidade que um único microfone não possui; ele é capaz de localizar, detectar e rastrear fontes.

Com o objetivo de solucionar o problema de localização, classes de algoritmos são escolhidos dependendo das restrições da aplicação (acurácia, custo, carga computacional ou tempo de implementação). Existem uma variedade de estratégias de localização de fontes como diferença de tempo de chegada (time difference of arrival - TDOA) e ângulo de chegada (angle-of-arrival - AOA), em que cada uma possui sua relação de compro-misso solucionando diferentes problemas (Munoz et al. 2009). A solução de localização está intimamente ligada a aplicação, pois dependendo desta, requisitos e uma arquitetura específica são impostos ao sistema. Logo, é importante ter claro o conjunto de requisitos para a definição de uma correta estratégia para obtenção do menor erro de estimação.

(26)

2 CAPÍTULO 1. INTRODUÇÃO

1.1

Motivação

Localização de fontes utilizando arranjos de microfones tem recebido atenção nos últimos anos, seja para localizar indivíduos ou dispositivos. Atualmente, muitos disposi-tivos se tornaram capazes de escutar, interpretar, e localizar onde as pessoas estão. Com o avanço das técnicas de processamento de sinais e da eletrônica, a localização de fon-tes utilizando sinais de áudio e de fala têm sido crucial em tecnologias emergenfon-tes, tais como smart speakers, robôs inteligentes, sistemas de vídeo conferência, sistemas de re-conhecimento de voz e tecnologias assistivas. Muitas soluções foram propostas e estão disponíveis para sistemas integrados de multimídia em que a localização é feita junto com reconhecimento de fala, separação de fontes, rastreamento, dentre outras tarefas. Do ponto de vista geral, os algoritmos de localização são muito úteis na tecnologia de diversos sistemas, tais como:

• O Google Home conta com dois microfones de campo distante (Google 2019), enquanto a segunda geração do Amazon Echo possui sete microfones no topo de seu dispositivos (CNET 2017), os quais são aptos a localizar a posição de pessoas; • Robôs utilizam localização de fontes para enriquecer suas capacidades perceptuais

para interações com humanos (Rascon & Meza 2017);

• Os sistemas de vídeo conferência utilizam da detecção de fontes para localização de pessoas (Seewald et al. 2014), melhoramento da qualidade da voz capturada e para rastreamento de fontes com direcionamento automático de câmeras (Wang & Chu 2002);

• Internet das coisas (Internet-of-Things - IoT) utilizam soluções de localização para ambientes indoor (Oguntala et al. 2018);

• Monitoramento de fontes de ruído em unidades de cuidados intensivos na área da saúde utilizam técnicas de localização de fontes acústicas (Müller-Trapet et al. 2018);

• Pesquisadores têm mostrado que com a localização de fonte é possível utilizar o air writingpara auxiliar no desenvolvimento educacional de pessoas com necessidades especiais (Chen et al. 2016).

Essas tecnologias estão cada vez mais atraentes para um número maior de pesquisa-dores na academia e na indústria. A Figura 1.1 apresenta a prospecção tecnológica na área realizada com dados dos últimos 10 anos de publicações de trabalhos científicos e de propriedade intelectual. Os números de artigos foram levantados por meio da plataforma Web of Scienceutilizando termos relevantes da área de localização como “time difference of arrival”, sua abreviação “TDOA”, e “time delay estimation”. Enquanto que a busca de patentes foi realizada na base de patentes do Google utilizando o termo “sound localiza-tion”. É possível verificar uma evolução crescente na quantidade de trabalhos na área, indicando interesse de pesquisadores e da indústria no tema.

A pesquisa do termo “Smart Speaker” na base de patentes do Google, ilustrado na Figura 1.2, apresenta ao longo dos anos a evolução do interesse na área. A aplicação em smart speaker representa bem o uso de arranjo de sensores nos anos recentes e seus

(27)

1.2. PRINCIPAIS DESAFIOS DE LOCALIZAÇÃO EM SINAIS ACÚSTICOS 3 0 50 100 150 200 250 300 350 400 450 500 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 N ú m ero d e art igos

"time difference of arrival" OR "TDOA" OR "time delay estimation"

(a) Número de artigos publicados nos últi-mos 10 anos. 0 50 100 150 200 250 300 350 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 N ú m ero d e p at en tes "sound localization"

(b) Número de patentes publicadas nos últi-mos 10 anos.

Figura 1.1: Prospecção tecnológica.

desafios. Em 2016 ocorre um crescimento abrupto do interesse da industria no tema, pro-vavelmente devido ao crescimento de tecnologias emergentes integradas em multimídias que interagem com o homem, demonstrado na Figura 1.2.

1.2

Principais Desafios de Localização em Sinais

Acústi-cos

O problema fundamental de localização de fontes em sinais acústicos tem sido torná-lo mais preciso, confiável, e prático para uso em aplicações de larga escala. O principal objetivo das técnicas é determinar a posição sem erros de estimação, porém isso não é possível. Portanto, a primeira observação a ser feita com relação a imprecisão é relacio-nado à posição das referências (receptores), umas em relação às outras. Outros motivos de imprecisão incluem os erros de medição dos instrumentos. Esses erros podem ser atribuídos ao ruído térmico e à variação dos parâmetros dos componentes de medição. Os erros relacionados a medição, ruído e ausência de acurácia das referências possuem impacto direto na resolução dos sistemas de localização, em que a resolução é definida como o limite de acurácia que pode ser alcançado com um específico esquema de loca-lização (Friedlander & Tuncer 2009). Dentre os desafios mais relevantes em localoca-lização para sinais acústicos, pode-se listar:

• Imprecisão das referências de localização; • Ruído térmico;

• Ruído de áudio; • Reverberação;

• Modelo de canal desconhecido; • Correlação dos sinais recebidos;

• Problemas no instrumento (casamento de impedância, falta de calibragem dos mi-crofones, crosstalking, dentre outros).

(28)

4 CAPÍTULO 1. INTRODUÇÃO 0 10000 20000 30000 40000 50000 60000 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 Nú m er o de pa tentes "smart speaker"

Figura 1.2: Número de patentes publicadas com o termo “Smart Speaker”.

Sabe-se também que a recepção de sinais de áudio é degradado pela presença de in-terferências indesejadas de áudio causadas por veículos, multidões, vento, máquinas, e ruído de áudio feito pelo homem. Essas interferências podem ser modeladas como ruído impulsivo, denominada assim devido seu elevado desvio, ilustrado na Figura 1.3. Nota-velmente, é demonstrado que canais sujeitos a ruído impulsivo são caracterizados com maior acurácia por processos não-Gaussianos (Georgiou 1999). Por outro lado, diver-sos métodos de estimação de localização assumem implicitamente ou explicitamente que as observações são distribuídas em um modelo Gaussiano. Essa consideração é encon-trada em técnicas clássicas de localização de fontes acústicas como a correlação cruzada generalizada (Generalized Cross Correlation - GCC), e suas diferentes funções de pon-deração, como a transformação de fase (Phase Transform - GCC-PHAT), função Roth (GCC-ROTH), função SCOT (GCC-SCOT), dentre outros. Portanto, os métodos clássicos degradam em desempenho ou não funcionam em canais não-Gaussianos (Nikias 1996).

Entretanto, a seleção do modelo de ruído não é óbvia devido o desconhecimento do canal. Uma maneira de obter uma solução com acurácia é investigar cenários reais utili-zando modelos capazes de descrever o comportamento e as características de sinais medi-dos. O modelo tradicional Gaussiano não é adequado para modelar sinais com alta varia-bilidade, presente em ruído impulsivo, enquanto que alguns modelos não-Gaussianos não possuem tais limitações (Samorodnitsky & Taqqu 1994). Logo, a avaliação utilizando processos não-Gaussianos é essencial para uma modelagem de canal adequada. Um ca-minho para investigar os modelos de ruído é por meio das distribuições de probabilidade, as quais pode-se destacar:

• Modelo α-estável (alpha-stable ou α-stable);

(29)

1.3. ESCOPO E CONTRIBUIÇÕES DO TRABALHO 5 1 2 3 4 5 6 7 Amostras 104 -0.05 0 0.05 Amplitude

Figura 1.3: Ilustração de ruído impulsivo em sinal de áudio.

• Modelo Gaussiano gatilhado (Gated Additive White Gaussian Noise - GAWGN); • Modelo Bernoulli-Gaussiano (Bernoulli-Gaussian Model);

• Modelo Poisson-Gaussiano (Poisson-Gaussian Model); • Modelo oculto de Markov (Hidden Markov models);

• Gaussiana generalizada (Generalized Gaussian Distribution - GGD).

É demonstrado que as distribuições α-estável (Georgiou 1999) e GMM (Mosalaosi & Afullo 2016), que podem modelar caudas mais pesadas que a distribuição Gaussiana, permitem melhor aproximação dos sinais de áudio do mundo real.

Dessa maneira, uma solução baseada em covariância fracionária de baixa ordem (Frac-tional Lower Order Covariance- FLOC) (Nikias 1996) foi proposto para problemas de localização de fontes em cenário com ruído α-estável (Georgiou 1999). O método não depende de sinais modelados por estatísticas de segunda ordem, obtendo a estimação de localização mesmo em ambientes com ruído impulsivo severo. Entretanto, o método possui elevado custo computacional e pior desempenho em tempo-real que os métodos clássicos, devido à impossibilidade de uso de algoritmos otimizados. O método também possui um parâmetro que depende do conhecimento a priori do ruído α-estável.

Além disso, foi proposto uma classe de funções de transformação de dados para o método FLOC, conhecida por FLOC generalizada (Generalized FLOC- GFLOC) (Jiang & Zha 2008), que também não permite o uso de algoritmos rápidos resultando em baixo desempenho em uso prático. Até o presente momento a solução foi pouco explorada em localização de fontes, e será objeto deste trabalho.

1.3

Escopo e Contribuições do Trabalho

O principal objetivo desta tese é o desenvolvimento de um sistema de localização de fontes robusto por meio de estimação de diferença de tempo de chegada em canais acús-ticos na presença de ruído impulsivo severo. A fim de alcançar esse objetivo plenamente, uma lista de objetivos específicos é estabelecida:

(30)

6 CAPÍTULO 1. INTRODUÇÃO

• O desenvolvimento de um sistema de estimação TDOA utilizando ferramentas de processamento estatístico de sinais;

• Caracterização de ruído no canal acústico por meio de setup experimental com ava-liação da impulsividade utilizando dados medidos em diferentes cenários;

• O método proposto deve ser independente das condições do modelo do canal, ou seja, deve ainda possuir desempenho adequado em cenários com ruído sem impul-sividade;

• Desenvolvimento de um simulador para prova de conceito, avaliação de desempe-nho e comparação entre métodos clássicos, estado da arte e método proposto, em diferentes modelos de canais;

• Avaliação dos métodos de localização utilizando dados medidos em cenários rea-lísticos.

1.3.1

Hipótese de Pesquisa

A hipótese de pesquisa é a aplicação de ferramenta estatística aos dados dos sinais recebidos no arranjo de sensores com o objetivo de mitigar a impulsividade presente no canal e assim, melhorar o desempenho dos algoritmos de localização em tais canais. Além disso, o método proposto garante viabilidade em aplicações práticas por meio de baixo custo computacional. Ao atingir esses objetivos, a tese deve fornecer considerável contri-buição para os desafios atuais presentes nos sistemas de localização em sinais acústicos.

O método proposto é robusto e realiza a estimação de atraso de tempo para localização de fontes em canais acústicos sujeito a ruído impulsivo não-Gaussiano. Particularmente, o método utiliza transformação não-linear de dados que permite o uso de métodos de lo-calização clássicos mesmo em canais não-Gaussianos com variância ilimitada. O método proposto é baseado nas técnicas de correlação cruzada generalizada e por esse motivo é denominado Generalized Cross Correlation - Non-Linear Transformation (GCC-NLT).

O modelo de canal utilizado na avaliação dos métodos é também investigado em ce-nários reais. Ajuste de dados e análises estatísticas de dados medidos são realizadas em cenários reais. Portanto, o desempenho do método proposto é avaliado por meio de simu-lações e medições experimentais utilizando modelo de canal ajustado para dados medidos reais.

A investigação de cenários severos para aplicações de localização de fontes motivaram a pesquisa apresentada nesta tese. Localização de pessoas em cenários com ruído severo como próximo a multidões ou com vento excessivo, não é possível por meio das soluções clássicas existentes. Além disso, a ferramenta do estado-da-arte apresenta desvantagem que a torna inacessível para aplicações práticas.

O método proposto apresenta significante melhoria de desempenho na estimação de localização na presença de ruído impulsivo se comparado aos métodos clássicos. Com relação ao estado-da-arte, o método proposto possui desempenho similar com a vantagem de maior viabilidade prática. A solução apresentada é implementada em um simulador Open Sourceque pode ser avaliado para diferentes modelos de canal, útil para pesquisa-dores e instituições que trabalhem com localização de fontes na atualidade.

(31)

1.4. ORGANIZAÇÃO DO TEXTO 7

1.3.2

Produtos Tangíveis da Pesquisa

Este trabalho apresenta como resultado as seguintes contribuições: • Novo método robusto de localização para canais acústicos; • Setup experimental móvel com arranjos de microfones; • Medições em diferentes cenários;

• Análise estatística de dados medidos em cenários com diferente grau de impulsivi-dade;

• Simulador Open Source para prova de conceito de métodos de localização; • Investigação de ferramentas TDOA;

• Artigos e produção científica.

1.3.3

Questões da Pesquisa

Com o objetivo de ser preciso no esclarecimento do trabalho quanto ao método e aos objetivos específicos, uma lista de questões é enumerada aqui e discutida até o final da tese, como segue:

1. O que caracteriza ruído impulsivo?

2. Existe a presença de ruído impulsivo em sinais de áudio em aplicações reais? 3. Qual o modelo de distribuição de probabilidade melhor caracteriza o ruído presente

nos dados medidos de áudio?

4. Qual melhor estratégia de direção de chegada a ser utilizado para sinais de áudio? Porque?

5. O que caracteriza um método robusto?

6. O método proposto é robusto? Ele apresenta desempenho satisfatório em todos os cenários?

7. O estado-da-arte soluciona o problema de localização em cenário com ruído impul-sivo?

8. Quais as vantagens e desvantagens do método proposto em relação ao estado-da-arte?

1.4

Organização do Texto

Esta tese está separada em 6 capítulos principais além deste. Segue abaixo uma breve descrição dos capítulos.

O capítulo 2 apresenta as estratégias de localização de fontes. Primeiro, descreve-se as considerações dos parâmetros físicos e dos arranjos de sensores feitas no trabalho. Em seguida, a taxonomia das estratégias de localização é apresentada e a estratégia escolhida é justificada. Por fim, os problemas possíveis no canal de comunicação são listados, além dos tipos de fonte utilizados neste trabalho.

No capítulo 3, a caracterização do ruído impulsivo é realizado. O objetivo desse capítulo é modelar o ruído baseado em dados medidos de cenários reais. Assim, utilizar o modelo mais adequado para avaliação dos métodos de localização. Nesse capítulo,

(32)

8 CAPÍTULO 1. INTRODUÇÃO

os dois modelos de ruído mais indicados pela literatura são avaliados e seus parâmetros estimados, além disso análises estatísticas e de processamento de sinais são feitas nos dados medidos.

O capítulo 4 apresenta as soluções clássicas de localização mais relevantes encontra-das na literatura e normalmente utilizaencontra-das na indústria. Além disso, é definido o método do estado-da-arte e o método proposto. Nesse capítulo as considerações e particularidades do método proposto são discutidas.

No capítulo 5, o desempenho do método proposto é analisado. Inicialmente, o si-mulador e suas características são apresentado. Em seguida, análises são realizadas com objetivo de avaliar o desempenho do método proposto em relação ao método do estado-da-arte, bem como discutir as dificuldades encontradas nos métodos clássicos.

O capítulo 6 apresenta resultados experimentais. O setup experimental e suas con-siderações são descritas. Em seguida, os métodos em condições reais de localização de fontes são avaliados. Além disso, hipóteses que justifiquem os resultados alcançados são discutidas.

Por fim, o capítulo 7 descreve a conclusão da tese, além de responder as questões da pesquisa. Críticas com relação as vantagens e desvantagens do método proposto são realizadas. Os objetivos alcançados e possibilidades de trabalhos futuros também são discutidas neste capítulo.

(33)

Capítulo 2

Localização de Fontes Acústicas

Embora neste trabalho sejam referidos sinais acústicos ou sinais de áudio, não é obje-tivo restringir as análises somente aos sinais de fala, ou excluí-los, do mesmo modo com relação as aplicações. O objetivo é analisar métodos que são capazes de utilizar sinais de áudio para localização com quaisquer características físicas. As restrições realizadas aqui podem ser efetuadas para condizer com as validações experimentais, porém está fora do escopo deste trabalho abordar tipos específicos de áudio ou aplicação.

Os sistemas de localização podem ser classificados como na Figura 2.1. Primeira-mente, os sistemas podem ser classificados em Global ou Local, como o próprio nome sugere, o posicionamento global fornece a geolocalização em torno do planeta, enquanto que a localização local possui um sistema de referência que depende da linha de visada direta, com alcance dependendo da propagação da onda. Nos sistemas de localização local têm-se os sistemas de auto-localização, os quais permitem que um indivíduo ou dispositivo seja localizado com relação a uma referência estática em qualquer tempo e lugar. Já os sistemas de localização remotos permitem a localização da fonte relativa a qualquer outro ponto (com relação a outra fonte ou ao receptor) da área de cobertura, em que cada fonte pode ser estática ou dinâmica. Dentre os sistemas remotos, os sistemas ativos são aqueles que possuem cooperação na localização com os diversos nós (fontes) e os sistemas passivos não possuem nenhuma cooperação. Os sistemas considerados neste trabalho são os sistemas de localização remoto passivos, em que as fontes possuem loca-lização dinâmicas e sem cooperação entre si.

Os sistemas de localização utilizam técnicas de estimação de ângulo de chegada ob-servando os sinais que chegam em múltiplos sensores espaçados por uma fração do com-primento de onda. Os esquemas de posicionamento dos sensores são chamados de arranjo de sensores, e o sinal deve incidir no arranjo com ângulo diferente de 90◦ com relação ao eixo de sensores. Portanto, os sinais recebidos nos sensores são versões atrasadas no tempo e em fase do sinal original; assim, as técnicas de ângulo de chegada utilizam deste modelo para extrair a informação do ângulo que está presente nos sinais recebidos. Na maioria das técnicas de localização são feitas considerações com o objetivo de simplificar a análise e o projeto destes sistemas. Algumas considerações feitas neste trabalho são discutidas e justificadas a seguir.

(34)

10 CAPÍTULO 2. LOCALIZAÇÃO DE FONTES ACÚSTICAS Sistema de Localização Sistema de Localização Global Sistema de Localização Local Sistema de Auto-Localização Sistema de Localização Remoto Sistema de Localização Remoto Passivo Sistema de Localização Remoto Ativo

Figura 2.1: Classificação dos sistemas de localização.

2.1

Considerações Gerais

Uma consideração comum feita em aplicações de localização é assumir que as fontes estão localizadas distante o suficiente do arranjo de sensores de maneira que a frente de onda que incide no arranjo pode ser modelada como ondas planas (campo distante). Para muitas aplicações esta consideração é válida, porém é importante compreender o impacto do uso deste modelo. Neste trabalho é considerado o modelo de campo próximo com as devidas comparações em relação ao modelo de campo distante.

A banda estreita (narrowband) é outra consideração comum feita nos sistemas de localização, caso contrário são necessárias técnicas específicas de localização (Ward & Brandstein 2001). Neste trabalho, considera-se que o sinal que chega ao arranjo de senso-res é modelado como banda estreita. No modelo do arranjo de sensosenso-res são considerados um arranjo linear uniforme (Uniform Linear Array - ULA) e um arranjo circular uniforme (Uniform Circular Array - UCA) como arranjos dos microfones. Em diversas análises é considerado apenas um par de microfones como simplificação do problema para uma abordagem focada nos algoritmos de estimação de ângulo. Entretanto, quando neces-sário, será discutido o arranjo utilizado para determinada análise. Todas as análises são realizadas em um plano 2D para o ângulo azimutal com uma única fonte por simplicidade, pois as técnicas de determinação do número de fontes não são de interesse deste trabalho.

(35)

2.2. ARRANJO DE SENSORES 11

2.2

Arranjo de Sensores

Neste trabalho, o modelo mais realístico de disposição das referências não considera campo distante devido à distância relativa entre a fonte e os receptores. Para um conjunto de M microfones, conforme Figura 2.2, em que o i-ésimo microfone mi é espaçado do

microfone consecutivo mi+1 da distância d, os sinais recebidos no microfone mi+1 são

atrasados em relação a midevido às distâncias percorridas ∆n e ∆f. O modelo de campo

próximo leva em consideração o ângulo θn da fonte em relação ao eixo de referência, e para cada par de microfone existe um ângulo associado, como apresentado na Figura 2.2a. Enquanto que no modelo de campo distante, considera-se que a frente de onda é plana devido à distância da fonte em relação aos microfones e o ângulo θf é o mesmo para todos os microfones, como mostrado na Figura 2.2b.

Independente do modelo escolhido, a distância d sempre deve ser menor que a metade do comprimento de onda do sinal que chega ao sensor, de maneira a evitar a ambiguidade (aliasing) espacial, impedindo de determinar o ângulo de chegada. No modelo de campo distante, o ângulo entre a frente de onda e o eixo dos sensores é descrito como θ0= 90◦−θ e as distâncias ∆f são múltiplos inteiros umas das outras, enquanto que em campo pró-ximo, a relação entre as distâncias ∆nsão determinados por meio de relações trigonomé-tricas. A determinação do ângulo de chegada por meio de cada modelo é abordado no capítulo 6.

2.3

Estratégias de Localização

O problema de localização de posição em sinais acústicos pode ser classificado em diferentes aspectos. Um aspecto crucial são as estratégias dos métodos de localização, ilustrados na Figura 2.3. Ângulo de chegada é o conceito de estimação espectral co-nhecido pelos métodos de alta resolução angular. Esta estratégia pode ser dividida em métodos paramétricos e não-paramétricos, em que os métodos paramétricos possuem in-formação a priori do número de fontes, e os não-paramétricos não possuem. O número de sensores deve ser maior que o número de fontes e são normalmente métodos com maior custo computacional que os demais (Zekavat & Michael Buehrer 2012). Os métodos mais comuns em AOA são baseados em subespaço, tais como o MUSIC (MUltiple SIg-nal Classification) e o ESPRIT (Estimation of SigSIg-nal Parameters via Rotation Invariance Techniques) (Munoz et al. 2009).

Enquanto que a estratégia TDOA se utiliza da diferença de tempo de chegada dos sinais para determinar o ângulo da fonte. Nesta estratégia não é necessário sincronismo de tempo entre os sensores (receptores), e os métodos mais utilizados são baseados em correlação cruzada. Existem também as estratégias baseadas no nível de potência do sinal recebido, denominado de RSS (Received Signal Strength), em que o objetivo é medir a distância entre a fonte e o receptor. Por fim, as estratégias híbridas são as combinações das estratégias anteriormente mencionadas, de maneira a obter maior acurácia na localização de fontes (Munoz et al. 2009).

Terminologias similares ao TDOA são estimação de atraso de tempo (time delay es-timation- TDE), estimação de tempo de chegada (time-of-arrival - TOA) e estimação de

(36)

12 CAPÍTULO 2. LOCALIZAÇÃO DE FONTES ACÚSTICAS 𝜃1𝑛 𝑑 Δ1𝑛 𝑚1 𝑚2 (… ) 𝑚𝑀 Δ𝑛𝑀−1 𝜃𝑛𝑀−1

(a) Modelo de campo próximo.

𝜃′ 𝜃1𝑓 𝑑 Δ1𝑓 𝑚1 𝑚2 (… ) 𝑚𝑀 Δ𝑓𝑀−1 𝜃𝑓𝑀−1

(b) Modelo de campo distante.

(37)

2.3. ESTRATÉGIAS DE LOCALIZAÇÃO 13 Estratégias de Localização Indiretamente Diretamente (angulação) Potência do Sinal Tempo de Propagação RSS TDOA TOA Ângulo Recebido AOA Posicionamento Variável Estratégia DOA TDE

Figura 2.3: Estratégias de localização.

tempo de voo (time-of-flight - TOF). Entretanto, em sistemas TOA é necessário um sin-cronismo de tempo entre os sensores para o cálculo da diferença de tempo entre os sinais para a estimação do ângulo de chegada, tornando-o diferente do TDOA.

2.3.1

AOA

As técnicas de estimação de ângulo de chegada baseadas em AOA dependem das observações dos sinais recebidos nos microfones espaçados e montados em um arranjo geométrico conhecido. Um sinal de interesse s(n), que pode ser aleatório ou determinís-tico, incide no arranjo de microfones no instante de tempo discreto n, com um ângulo diferente de 90◦com relação ao eixo de microfones que irá alcançar cada microfone com diferentes atrasos de propagação.

Considerando uma frente de onda plana, com D sinais incidindo em um ULA com M microfones (i = 1, 2, ...M), em que cada microfone recebe os sinais com ângulos θk

(k = 1, 2, ..., D). Como ilustrado na Figura 2.4 (sistema AOA com uma única fonte), o sinal recebido pode ser modelado em relação ao i-ésimo microfone como

xi(n) = Hi(ωc, θk)e− j(i−1)δksk(n) + qi(n), (2.1)

em que Hi(ωc, θk) é a resposta em frequência do i-ésimo microfone para uma determinada

frequência central, e qi(n) é o ruído. O microfone consecutivo recebe o sinal atrasado de

dsin θk/u segundos, ou em fase δk = dωcsin θk/u radianos, em que u é a velocidade de

propagação da onda do som, e ωc é a frequência da portadora em banda estreita. Como

mencionado anteriormente, d é a distância entre os microfones, que por sua vez é limitado a d < λc/2, em que λc= 2πu/ωcé o comprimento de onda do sinal.

A resposta em frequência do microfone é uma função do sinal de ângulo de chegada e representa as características inerentes do sensor, como ganho, diretividade e sensibilidade. Supondo D sinais incidindo no receptor, o modelo para o i-ésimo microfone pode ser escrito como

(38)

14 CAPÍTULO 2. LOCALIZAÇÃO DE FONTES ACÚSTICAS 𝜃′ 𝜃𝑘 𝜃𝑘 𝑑 𝑑 Δ1= 𝑑. sin 𝜃′ 𝑚1 𝑚2 𝑚3 (… ) 𝑚𝑀 Δ2= 2𝑑. sin 𝜃′ ΔM−1= 𝑀 − 1 𝑑. sin 𝜃′ 𝑠𝑘(𝑛)

Figura 2.4: Arranjo linear uniforme.

xi(n) =

D

k=1

Hi(ω, θk)e− j(i−1)δksk(n) + qi(n) i= 1, . . . , M. (2.2)

Para qualquer θk real, pode-se definir o vetor de direção como

a(θk) = [H1(ωc, θk), H2(ωc, θk)e− jδk, H3(ωc, θk)e− j2δk, . . . , HM(ωc, θk)e− j(M−1)δk]T

(2.3) em que o atraso é determinado por

δk=

ωcd

u sin θk. (2.4)

Uma versão matricial da Equação (2.2) pode ser obtida e escrita como

x(n) = As(n) + q(n). (2.5)

A matriz A = [a(θ1), a(θ2), . . . , a(θD)] é geralmente chamada de array manifold, em

que suas colunas são vetores de direção, supondo o número D de fontes conhecido. Dessa forma, os métodos de ângulo de chegada utilizam-se da Eq. (2.5) para determi-nação do ângulo θkda fonte k por meio do modelo apresentado.

2.3.2

TDOA

O TDOA se baseia na estimação do atraso de tempo (TDE) entre dois canais recebidos de um arranjo de sensores. Uma propriedade importante do TDOA é que sua variância não aumenta com a distância, como no caso AOA ou RSS (Munoz et al. 2009). Considere um sistema com M microfones e, para cada um, são medidos N observações. Um modelo geral de sinal recebido é descrito como

(39)

2.4. CANAL DE COMUNICAÇÃO 15

xi(n) = ais(n − τi) + qi(n), i= 1, 2, . . . , M n= 0, 1, . . . , N − 1|, (2.6)

em que xi(n) é o sinal recebido no i-ésimo microfone, s(n) é o sinal da fonte de interesse

com aie τisendo o ganho aleatório e o atraso de propagação, e qi(n) é o ruído.

O número total de combinações possíveis de atrasos são M(M − 1)/2, enquanto que apenas M − 1 atrasos são não-redundantes. Um conjunto não-redundante de atrasos é obtido quando um microfone é considerado como referência, e o atraso de propagação do sinal recebido nos demais microfones (i = 2, 3, ..., M) é calculado em relação ao microfone de referência.

Existem duas possíveis classes de sistemas TDOA: ativo e passivo. O sistema TDOA ativo significa que s(n) é conhecido e o problema pode ser formulado como:

x(n) = a.s(n − τ) + q(n), n= 0, 1, . . . , N − 1|, (2.7) em que o objetivo é determinar o atraso τ por meio de s(n) e x(n). Enquanto que no sistema TDOA passivo, o sinal s(n) é desconhecido, e para um par de microfones, o modelo pode ser escrito como:

x1(n) = a1s(n) + q1(n)

x2(n) = a2s(n − τ) + q2(n)|, (2.8)

em que τ é determinado por meio de x1(n) e x2(n). Neste trabalho é considerado o sistema

passivo, em que o sinal de interesse s(n) é desconhecido.

Para o caso com modelo de canal com D multi-percursos, os sinais recebidos podem ser modelados como

x1(n) = ∑Dk=1a1,ks(n − τ1,k) + q1(n),

x2(n) = ∑Dk=1a2,ks(n − τ2,k) + q2(n),

(2.9) em que os índices 1 e 2 indicam os pares de canais de microfones receptores. Neste caso, o TDOA estimado será a diferença entre τ1,k− τ2,k(Munoz et al. 2009).

Dessa forma, o ângulo é determinado por meio dos atrasos de tempo estimado e assim realizado a localização da fonte. Os algoritmos TDOA podem ser descritos em três passos: a seleção dos dados em um quadro dos múltiplos receptores; a determinação da diferença de fase ou diferença do tempo de chegada; e por fim, o cálculo da direção de chegada (ângulo) da fonte. A determinação da distância da fonte em relação aos sensores depende do uso de algoritmos específicos para esta finalidade, ou de estratégias híbridas. Neste trabalho será investigado apenas o ângulo de chegada.

2.4

Canal de Comunicação

O sinal da fonte comumente é modelado como banda estreita. O modelo em banda larga com seus harmônicos é difícil de expressar analiticamente e esta fora do escopo deste trabalho. Entre a fonte e o arranjo de sensores existe um canal de comunicação em que suas características dependem do meio em que a onda é propagada, que pode

(40)

16 CAPÍTULO 2. LOCALIZAÇÃO DE FONTES ACÚSTICAS

ser o ar, água, ou outro. O sinal recebido pode sofrer alguns efeitos devido ao canal de comunicação, que podem ser atenuação, distorção de fase e ruído (Friedlander & Tuncer 2009).

A amplitude do sinal da fonte normalmente é atenuada fortemente conforme aumenta a distância entre o arranjo de microfones e a fonte. A atenuação pode não ser um pro-blema desde que esta não seja seletiva em frequência, caso contrário, as atenuações são diferentes para diferentes frequências. É comum que o sinal de alta frequência da banda audível seja atenuado mais fortemente que o sinal de baixa frequência, assim distorcendo o sinal (Theodoridis & Chellappa 2014). O mesmo ocorre para a resposta em frequência do sensor, pois os microfones podem possuir diferentes respostas em frequência entre si, causando distorção dos sinais recebidos no arranjo, dificultando a estimação de ângulo. Além disso, a atenuação do sinal pode ser diferente para diferentes direções, não sendo uniforme.

Outro problema referente ao canal é a distorção de fase. Ela pode ser afetada vido à propagação do sinal viajar em meios não-homogêneos causando refração ou de-flexão comprometendo a estimação de ângulo. Também é possível a ocorrência de dis-torção de fase devido ao canal seletivo em frequência que distorce a morfologia da onda, distorcendo-a não linearmente.

Efeitos relacionados ao ruído degradam o sinal da fonte que viaja até cada micro-fone. Frequentemente, o ruído é modelado como uma interferência aditiva, assumido como ruído branco, de média zero, descorrelacionado e estacionário no sentido amplo, modelado como uma distribuição Gaussiana. Entretanto, o cenário pode impor uma con-dição diferente desta e, por isso, neste trabalho é avaliado e caracterizado alguns cenários utilizando modelos não-Gaussianos.

2.5

Tipos de Fonte

Os sinais de interesse podem ser divididos em sinais determinísticos e sinais aleató-rios. O sinal determinístico pode ser utilizado para validação das ferramentas e métodos, bem como localizar dispositivos eletrônicos ou localização em canais underwater. Para estes sinais, a solução clássica para estimar a localização é baseada na transformada curta de Fourier (So 2001), em que, para uma relação sinal-ruído (signal-to-noise ratio - SNR) suficientemente alta, é possível estimar o atraso de tempo entre dois microfones. Neste trabalho, para sinais determinísticos é utilizado um tom de 1 kHz.

O uso de sinal aleatório representa sinais de voz ou qualquer fonte audível não-determinística presente na recepção. Para estes sinais, utiliza-se os métodos baseados em correlação cruzada. Para sinais sintéticos aleatórios, este trabalho utiliza processos Gaussianos de média zero e para sinais medidos reais utiliza-se sinais de voz.

2.6

Conclusão

Este trabalho utiliza sinais acústicos na banda audível, com frequência de amostragem fs = 48 kHz. Os sistemas de localização utilizados são remotos passivos, com o sinal

(41)

2.6. CONCLUSÃO 17

Tabela 2.1: Comparação entre as estratégias de localização.

Estratégia Localização Vantagens Desvantagens

TDOA Diferença

de tempo

Alta acurácia. Não ne-cessita de sincroniza-ção.

Considera visada di-reta.

TOA Distância Alta acurácia. Sincronização de

tempo de todos os

receptores é necessá-ria. Considera visada direta.

AOA Ângulo Não necessita de

sin-cronização.

Considera visada di-reta.

RSS Distância Simplicidade e custo.

Não necessita de sin-cronização.

Acurácia é baixa.

Tabela 2.2: Analogia entre as estratégias de localização.

Estratégia DOA TDOA

Modelo do sinal xi(n) = ∑Dk=1sk(n)e− j(i−1)δk+ q(n) x(n) = ∑D

k=1aks(n − τk) + q(n)

Modelo vetorial xxx(n) = AAAsss(n) + qqq(n) xxx= AAAggg+ qqq

D Número de fontes Número de multi-percurso

Parâmetro esti-mado

θ τ

de interesse desconhecido. Os arranjos utilizados são lineares e circulares (especificado quando utilizado um ou outro), em que as análises são realizadas considerando campo distante e campo próximo. O modelo de canal é estimado quanto ao ruído para três diferentes cenários e os tipos de fontes utilizados são determinísticos e aleatórios.

Afim de aplicar técnicas de localização em sinais acústicos, em que a posição da fonte é desconhecida, é necessário um método de estimação de ângulo entre os canais por meio de AOA ou TDOA (Zekavat & Michael Buehrer 2012). Na Tabela 2.1 são comparados os modelos das duas estratégias, e são descritos na Tabela 2.2. Na prática, a estimativa por meio de AOA em sinais acústicos é muito menos utilizada devido aos seus requisitos e custo computacional elevado se comparado ao TDOA (Miró 2006). Logo, neste trabalho utilizaremos a classe TDOA na banda audível dos sinais acústicos.

(42)
(43)

Capítulo 3

Caracterização do Ruído Impulsivo

Em geral, canais acústicos não são distribuídos por Gaussianas nem mesmo são es-tacionários no sentido amplo. Considerar estes canais para métodos TDOA projetados assumindo Gaussianidade é inadequado devido sua degradação em tais canais. Nesse sentido, este capítulo apresenta uma análise de sinais de áudio corrompidos por ruído im-pulsivo utilizando modelos não-Gaussianos. Amostras de áudio são comparadas entre os modelos Gaussianos, α-estável, e mistura de Gaussianas, avaliando o fitting por método gráfico e numérico. Além disso, são apresentadas propriedades como largura da janela e sobreposição (overlap), com conclusões a respeito de sinais medidos em diferentes cená-rios.

3.1

Estimações de Parâmetros

A estimação por máxima verossimilhança (MLE) é utilizada para determinar os parâ-metros dos modelos Gaussiano, α-estável, e misturas de Gaussiana dos dados adquiridos. A seguir são apresentados os detalhes das estimações realizadas.

3.1.1

Estimação dos Parâmetros GMM

O modelo de mistura de Gaussianas (GMM) é uma combinação linear de funções Gaussianas em que a soma de todos os coeficientes dos pesos é igual a um. Portanto, uma variável aleatória y com distribuição GMM é definida por

p(y) = M

i=1 ciN(xi|µi, σi), com M

i=1 ci= 1, (3.1)

em que cié o peso da i-ésima função distribuição Gaussiana, M representa o número de

distribuições Gaussianas na mistura, e N(xi|µi, σi) é a função distribuição Gaussiana dada

por N(xi|µi, σi) = 1 σi √ 2πe −(xi−µi) 2σ2i , (3.2)

(44)

20 CAPÍTULO 3. CARACTERIZAÇÃO DO RUÍDO IMPULSIVO

em que xié a i-ésima variável aleatória Gaussiana com seu respectivo valor esperado µie

desvio padrão σi(Khan et al. 2019).

O método MLE é uma maneira de estimar parâmetros θθθ em que a função probabili-dade f (xi|θθθ) da variável aleatória X é especificado (Myung 2003). A estimação é

base-ada em amostras xi(observações) de variáveis distribuídas identicamente e independentes

(independent and identically distributed - i.i.d.), e uma função log-verossimilhança (log-likelihood), que é dada por

`(θθθ) =

N

i=1

log f (xi|θθθ). (3.3)

Portanto, o MLE determina os parâmetros ˆθθθ do modelo que maximizam a função like-lihood, estimando os parâmetros mais prováveis baseados nos dados observados (Miura 2011).

O Expectation-Maximization (EM) é um método para determinar o MLE dos parâ-metros θθθGMM de um GMM (McLachlan & Peel 2000). Portanto, assumindo que o dado

observado é gerado por Gaussianas, os parâmetros estimados θθθGMMsão (µi, σ2i, ci) para o

conjunto inteiro de Gaussianas.

O algoritmo EM emprega um procedimento iterativo que é obtido por alternar o passo expectation (E-step) com o passo maximization (M-step). No E-step, é calculado o va-lor esperado do log-likelihood relativo a atual estimativa da distribuição (estimativa dos parâmetros µi e σ2i). No M-step, é maximizado estes parâmetros esperados do E-step,

também atualizando o valor de ci. Esses parâmetros são, então, utilizados para

determi-nar os novos parâmetros no próximo E-step até a convergência ser detectada (McLachlan & Peel 2000).

Os parâmetros iniciais são selecionados utilizando uma heurística para encontrar as sementes dos centróides baseadas em k-means, e o algoritmo itera sobre os passos até a convergência.

3.1.2

Estimação dos Parâmetros α-estável

As razões teóricas para modelagem estatística usando distribuições α-estáveis são baseadas no teorema do limite central generalizado e na propriedade de estabilidade (Samorodnitsky & Taqqu 1994). O teorema do limite central generalizado afirma que se uma soma de variáveis aleatórias i.i.d. com ou sem variância finita converge, o li-mite da distribuição deve ser α-estável. De acordo com a propriedade de estabilidade, distribuições α-estáveis são fechadas sobre convolução, isto é, a soma de duas variáveis aleatórias independentes com a mesma exponencial característica é também α-estável, mantendo a mesma exponencial característica (Shao & Nikias 1993). Outra razão para uso deste modelo é que os dados medidos apresentam cauda pesada em seu histograma. Esse comportamento pode ser originado de uma combinação de diferentes variáveis alea-tórias, utilizando-se mais uma vez do teorema do limite central generalizado para justificar o modelo α-estável.

Existem diferentes parametrizações da distribuição α-estável para diferentes especifi-cações da função característica. Em vista disso, assume-se os parâmetros θθθα= (α, β, γ, δ)

(45)

3.1. ESTIMAÇÕES DE PARÂMETROS 21

e a seguinte função característica (Shao & Nikias 1993):

ϕ(ω; θθθα) = exp(−γα|ω|α[1 − jΘ(ω; α, β)] + jδω), (3.4) com Θ =  β(tanπα2 )(sign ω), α 6= 1 −β2π(ln |ω|), α = 1, (3.5)

em que α é o expoente característico tal que 0 < α < 2, β é o parâmetro de simetria em que −1 ≤ β ≤ 1, γ é a dispersão ou parâmetro de escala em que γ > 0, e δ é o parâmetro de localização, tal que −∞ < δ < ∞.

Finalmente, é assumido uma classe α-estável simétrica (Symmetric α-Stable - SαS), devido essa ter se provado útil na modelagem de ruído impulsivo (Nikias & Shao 1995). Para tal classe, temos β = 0 e δ = 0 (Samorodnitsky & Taqqu 1994).

Ao considerar MLE para distribuição α-estável, enfrenta-se um problema fundamen-tal que consiste na ausência de uma fórmula geral fechada para sua densidade de probabi-lidade. Somente quando α tem um valor específico, existem expressões para densidades. Este é um problema relacionado ao cálculo da função log-likelihood, Equação (3.3).

Entretanto, é aplicado o método de integração direta, detalhado em (Nolan 1997), para estimar os parâmetros α e γ usando MLE para o modelo α-estável, com a função característica descrita como:

ϕ(ω; α, γ) = exp(−γα|ω|α). (3.6)

O primeiro parâmetro, α, descreve o peso da cauda da distribuição. Quanto menor o valor de α, maior o peso das caudas; portanto, mais impulsivo é o ruído. Quando o valor do parâmetro α é próximo de 0 ou 1, a função densidade pode não ser calculada com acurácia devido a dificuldades numéricas. Por outro lado, o parâmetro escala γ se comporta similarmente à variância da distribuição Gaussiana. Entretanto, as distribuições α-estáveis não possuem variância limitada. A única exceção é para o valor de α = 2, quando a distribuição α-estável se reduz a Gaussiana.

As distribuições α-estáveis possuem momentos finitos para ordem menor que o pa-râmetro α. Por exemplo, assumindo-se um momento de ordem igual a p, a distribuição α-estável tem a seguinte relação com α

α < 2, E[Xp] → ∞ ∀p ≥ α

α < 2, E[Xp] < ∞ ∀0 ≤ p < α α = 2, E[Xp] < ∞ ∀p ≥ 0

(46)

22 CAPÍTULO 3. CARACTERIZAÇÃO DO RUÍDO IMPULSIVO

Figura 3.1: Setup de medição experimental.

3.2

Setup Experimental

Foram utilizados dois conjuntos de equipamentos de medição para adquirir os dados de áudio: (i) um setup de baixo custo com um ReSpeaker Core v1 (MT7688) board (Respeaker 2019), com quatro microfones conectados a um processador Raspberry Pi 3 (modelo B) para receber e armazenar os dados; e (ii) um DAQ NI-6361 da National Instruments como equipamento redundante para validar as medidas do setup de baixo custo. Neste caso, um notebook Sony Vaio (processador Core i3, modelo PCG-61A11X) é usado para receber os dados do DAQ.

Os dados foram medidos em 48 kHz de frequência de amostragem e adquiridas 240.000 amostras em 5 segundos. Foi adquirido o sinal de áudio em três situações:

1. Sem fonte de áudio intencional (unicamente ruído);

2. Com uma fonte emitindo um tom de áudio de 1 kHz. Este tom é produzido por um app Android chamado de Function Generator (keuwlsoft) (Keuwlsoft 2019), instalado em um smartphone LG K10. O áudio é reproduzido por um canal de uma caixa de som portátil JBL Flip 3;

3. Com uma fonte de sinal de voz. Esta fonte é originada de uma pessoa falando “this is just a test”. Os microfones são fixados em uma posição de 1.5 metros da fonte. O setup é móvel, permitindo a mobilidade dos instrumentos, ilustrado na Figura 3.1.

(47)

3.3. RESULTADOS E ANÁLISES 23

Porta

Auditório

Setup

Figura 3.2: Cenário indoor: Auditório acusticamente isolado sem ruído de áudio externo.

3.3

Resultados e Análises

Os dados foram adquiridos em três diferentes cenários:

1. Cenário indoor: um ambiente silencioso dentro de um auditório acusticamente isolado;

2. Cenário hall: um ambiente intermediário entre indoor e outdoor, no corredor do auditório;

3. Cenário outdoor: um ambiente externo do prédio.

As investigações apresentadas nessa seção são organizadas como a seguir. Inicial-mente, é realizada uma análise no domínio do tempo de sinais para comparar as caracte-rísticas do ruído em diferentes cenários. Uma análise de espectro de potência é realizada para verificar o nível de potência de ruído de cada cenário. A impulsividade é examinada no espectro bem como seu nível de potência, e comparado com a potência do sinal. Então, é mostrado o PDF fitting para Gaussiana, GMM com duas Gaussianas, e modelo SαS. A raiz do erro médio quadrático (Root Mean Squared Error - RMSE) é utilizada para medir a qualidade do PDF fitting. Em seguida, uma investigação sobre a largura de janela de amostras na estimação é conduzida para avaliar qual é a influência do número de amostras e a estratégia de janela para o fitting da distribuição. Finalmente, como o ruído acústico pode exibir um comportamento não-estacionário, é então analisada a estacionariedade do sinal medido para assegurar que o fitting é confiável.

3.3.1

Análise dos Cenários

O primeiro cenário é um auditório silencioso ilustrado na Figura 3.2. Ele é um am-biente com baixo nível de ruído, consequentemente apresenta um sinal de áudio de alta qualidade.

Este cenário é chamado de indoor, pois é um auditório localizado em um ambiente interno acusticamente isolado sem ruído de áudio externo. Esse ambiente é utilizado para conferências, apresentações, com um baixo nível de ruído. O sinal medido é mostrado na Figura 3.3 sem fonte de áudio e não apresenta impulsividade.

Uma segunda medição no cenário indoor é realizada quando um sinal de voz está presente, e uma pessoa realiza pequenos movimentos no ambiente intencionalmente. O sinal medido raramente apresenta ruído impulsivo (devido ao movimento de pessoas),

(48)

24 CAPÍTULO 3. CARACTERIZAÇÃO DO RUÍDO IMPULSIVO 0 1 2 3 4 5 Tempo (seg) -0.8 -0.5 0 0.5 0.8 Amplitude (V) Sem impulsividade

Figura 3.3: Comportamento do sinal no cenário indoor sem fonte de áudio.

como mostrado na Figura 3.4. Esta representação é uma evidência da independência entre o ruído e a fonte de áudio bem como a baixa impulsividade do ruído no cenário (baixa potência de ruído comparado com a potência do sinal).

O segundo ambiente é chamado de cenário hall, devido à medição ser realizada em um corredor. Este cenário é mais ruidoso que o ambiente indoor, representado na Figura 3.5. Esse ambiente é uma configuração entre um ambiente indoor e outdoor, composta de duas janelas e uma saída, permitindo a presença de ruído de áudio do vento. As medidas foram realizadas à noite na ausência de ruído de equipamentos como ar condicionado (Heating, Ventilation, and Air Conditioning - HVAC).

O sinal medido no cenário hall é apresentado na Figura 3.6, evidenciando um ruído impulsivo não frequente, provavelmente de alguma fonte externa.

A Figura 3.7 é ilustrado o sinal quando uma pessoa está presente falando. Como dis-cutido anteriormente no cenário indoor, a independência entre o ruído e a fonte de áudio é observada, mas agora é possível verificar a impulsividade do ruído devido a algumas fontes externas de ruído. Entretanto, esse cenário ainda tem baixa potência de ruído se comparada à potência do sinal da fonte.

O terceiro ambiente, chamado de cenário outdoor, é ilustrado na Figura 3.8. Ele é o mais ruidoso, com ruído de áudio originado do ambiente externo (construções, tráfego, e aglomerações de pessoas).

Nas Figuras 3.9 e 3.10 são apresentados os sinais no ambiente outdoor sem fonte de áudio e com uma pessoa falando, respectivamente. Uma obervação cuidadosa do compor-tamento do sinal sugere que este não possui momento de segunda ordem constante (sua variância é dependente do tempo). Isso pode acontecer como consequência de diferentes origens de ruído, como tráfego, sons de voz desconhecida, multidões, vento, e ruídos feito pelo homem. É possível concluir que mais impulsividade ocorre se diferentes fontes de ruído estão presentes.

(49)

3.3. RESULTADOS E ANÁLISES 25 0 1 2 3 4 5 Tempo (seg) -0.8 -0.5 0 0.5 0.8 Amplitude (V) Baixa impulsividade

Figura 3.4: Comportamento do sinal no cenário indoor com uma pessoa se movendo e falando. Corredor Escadas Janelas Porta Setup

Figura 3.5: Cenário hall: Um ambiente entre indoor e outdoor no corredor do auditório.

0 1 2 3 4 5 Tempo (seg) -0.8 -0.5 0 0.5 0.8 Amplitude (V)

(50)

26 CAPÍTULO 3. CARACTERIZAÇÃO DO RUÍDO IMPULSIVO 0 1 2 3 4 5 Tempo (seg) -0.8 -0.5 0 0.5 0.8 Amplitude (V) Baixa impulsividade

Figura 3.7: Comportamento do sinal no cenário hall com uma pessoa se movendo e fa-lando.

Figura 3.8: Cenário outdoor: Externo ao auditório com ruído originado do ambiente externo.

(51)

3.3. RESULTADOS E ANÁLISES 27 0 1 2 3 4 5 Time (sec) ­0.8 ­0.6 ­0.4 ­0.2 0 0.2 0.4 0.6 0.8 Amplitude Impulsive noise from human-made audio noise

Figura 3.9: Comportamento do sinal no cenário outdoor sem fonte de áudio.

0 1 2 3 4 5 Tempo (seg) -0.8 -0.5 0 0.5 0.8 Amplitude (V) Ruído altamente impulsivo

Figura 3.10: Comportamento do sinal no cenário outdoor com uma pessoa se movendo e falando.

(52)

28 CAPÍTULO 3. CARACTERIZAÇÃO DO RUÍDO IMPULSIVO 102 103 104 Frequency (Hz) -160 -140 -120 -100 -80 -60 -40 Power (dB) Indoor Hall Outdoor

Figura 3.11: PSD dos dados medidos em todos os cenários (sem fonte de áudio).

3.3.2

Análise da PSD

É realizada uma análise no domínio da frequência utilizando a estimativa da densidade espectral de potência (Power Spectrum Density - PSD) para a caracterização dos dados medidos. Na Figura 3.11, a PSD é estimada para todos os cenários usando 240000 amos-tras. É realçado uma região em banda curta do espectro de 100 Hz à 20 kHz sem qualquer fonte de áudio. Portanto, em termos de potência de ruído, o cenário outdoor apresenta uma potência maior que os demais.

Em alguns casos, o comportamento do sinal muda em intervalos pequenos de tempo, especialmente na presença de impulsividade. Foi avaliada a transformada curta de Fourier (short time Fourier transform - STFT) em uma janela de tempo de 1500 amostras no cenário outdoor. A PSD é apresentada em duas janelas ilustradas na Figura 3.12: (i) janela de tempo com impulsividade severa; e (ii) janela de tempo com impulsividade moderada. Naturalmente, quando a impulsividade é mais severa, a potência é maior no espectro.

Assumindo a impossibilidade de medir a SNR de um sinal sujeito a um ruído alta-mente impulsivo (devido à sua variância infinita), a PSD é estimada com uma janela de 1500 amostras para todos os cenários. A fonte de áudio é um tom de 1 kHz a 1, 5 me-tros do ponto de medição. Devido à proximidade, a fonte é facilmente sensoriada, como mostrado na Figura 3.13

3.3.3

Ajuste de PDF

Pela Tabela 3.1 é possível observar a estimação dos parâmetros da distribuição utili-zando 240.000 amostras para cada cenário sem uma fonte de áudio (unicamente ruído). Do ponto de vista da estimação, a média do modelo Gaussiano é sempre zero, e o desvio padrão é o parâmetro a ser analisado. Dentre os cenários testados, o outdoor apresenta maior variância da Gaussiana, indicando menor SNR. Como apresentado anteriormente,

Referências

Documentos relacionados

5.2.1.  As  rubricas  de  despesa  de  transferências  correntes  ou  de  capital  e  de  subsídios  para  organismos  da  Administração  Central  devem 

Keohane and Nye (1989) criaram o conceito de interdependência complexa como um contraponto ao paradigma realista das relações internacionais. Em um mundo marcado

nesta nossa modesta obra O sonho e os sonhos analisa- mos o sono e sua importância para o corpo e sobretudo para a alma que, nas horas de repouso da matéria, liberta-se parcialmente

o presente trabalho propôs analisar os parâmetros de operação do processo de cogaseificação de carvão e casca de arroz: razão entre combustíveis da mistura e

No entanto, maiores lucros com publicidade e um crescimento no uso da plataforma em smartphones e tablets não serão suficientes para o mercado se a maior rede social do mundo

3.3 o Município tem caminhão da coleta seletiva, sendo orientado a providenciar a contratação direta da associação para o recolhimento dos resíduos recicláveis,

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

período igual à duração do mesmo, sob pena de ressarcimento total das despesas efetuadas pela Instituição com a sua participação, mediante assinatura de Termo de Responsabilidade.