• Nenhum resultado encontrado

Grupo 4

N/A
N/A
Protected

Academic year: 2021

Share "Grupo 4"

Copied!
9
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA

EDUARDO PEREIRA LIMA GRR - 20149080 RODOLFO PIROLO GATZKE GRR - 20149150

RONY SENA GRR - 20149119

RECONHECIMENTO DE GENERO POR VOZ

CURITIBA Novembro de 2019

(2)

Sumário

Resumo 3 1 Introdução 3 2 Material e Métodos 3 2.1 Material 3 2.1.1 Conjunto de dados 3 2.1.2 Recursos Computacionais 4 2.2 Métodos 4 3 Resultados e Discussão 4 3.1 Análise Descritiva 4 3.2 Seleção do Modelo 6 3.3 Ajuste do modelo 8 4 Conclusão 9

(3)

Resumo

A fala é o meio mais comum de comunicação. Hoje a fala pode ser servir para a entrada em vários sistemas como Siri no iPhone, Cortana no Windows 10, Google Assistentente, Alexa da Amazon.

O Objetivo deste estudo é construir um modelo estatístico que interprete adequadamente o genero de uma pessoa pela voz, analisando as entradas e comparando-a com dados treinados. A base de dados foi extraída do site *https://www.mldata.io/datasets/*, As amostras de voz são pré-processadas por análise acústica em R usando os pacotes seewave e tuneR, com uma faixa de frequência analisada de 0hz-280hz.

Para análise foram utilizados métodos de regressão linear generalizada e análise multi-variada.

1 Introdução

O objetivo deste estudo é diagnosticar em um arquivo de audio o genero da pessoa, baseando-se nas variáveis relacionadas a voz.

Mas o que é a voz? Em uma procura rápida na internet podemos encontrar várias definições. No site da Wikipedia, temos a seguinte definição de voz: consiste no som produzido pelo ser humano usando suas cordas vocais para falar, cantar, gargalhar, chorar, gritar etc. Sua frequência varia entre 50 e 3.400 Hz. Este sistema é composto por pulmões, pregas vocais e articuladores ( lábios, língua, dentes, palato duro, véu palatar e mandíbula). O pulmão produz um fluxo de ar, que funciona como um combustível para a voz, que é expulso pelo diafragma e passa para as pregas vocais, que vibram e transformam esse ar em pulsos sonoros, formadores da fonte de som da laríngeo. Os músculos da laringe ajustam a duração e a tensão das pregas vocais para adequar a altura e o tom. Os articuladores articulam e filtram o som emanado pela laringe e até certo ponto podem interagir com o fluxo de ar para fortalecê-lo ou enfraquecê-lo como a fonte do som.

2 Material e Métodos

2.1 Material

2.1.1 Conjunto de dados

O estudo foi realizado com 3.168 registros de audios com 1.584 audios com vozes masculinas e 1.584 de vozes femininas, com 21 covariaveis descritas a seguir:

freq_media: Frequencia media (em kHz) dp: Desvio padrão de frequência

mediana: Frequência mediana (em kHz) quartil_1 : Primeiro quantil (em kHz)

(4)

entropia_espec: Entropia espectral planicidade_espec: Planicidade espectral freq_modo: Frequência de modo

centroide: Centróide de frequência

media_freq_fund: Média da frequência fundamental medida no sinal acústico

minimo_freq_fund: Frequência fundamental mínima medida através do sinal acústico maximo_freq_fund: Frequência fundamental máxima medida através do sinal acústico media_freq_dom: Média da frequência dominante medida no sinal acústico

minimo_freq_dom: Mínima da frequência dominante medida no sinal acústico maximo_freq_dom: Máxima da frequência dominante medida no sinal acústico fx_freq_dom: Faixa de frequência dominante medida através do sinal acústico

indice_modulacao: Índice de modulação. Calculada como a diferença absoluta acumulada

entre edições adjacentes de frequências fundamentais divididas pela faixa de frequências

sexo: Sexo da pessoa que gravou o áudio

A covariável de interesse é a sexo.

2.1.2 Recursos Computacionais

O software R, versão 3.5.1 foi utilizado para ajustar os modelos lineares generalizados aos dados descritos.

Foram utilizados os pacotes glmnet, corrplot, RColorBrewer, PerformanceAnalytics, car, ROCR, effects, statmod, hnp, FactoMineR e factoextra.

2.2 Métodos

Considerando que a natureza da varíável de interesse é binária (Masculino ou Feminino), foi utilizada o conceito de modelos lineares generalizados, para este tipo de dado a distribuição Binomial se ajusta melhor.

O objetivo da análise é definir o genero com base nas variáveis relacionada a voz. Verificando quais as caracteristicas que diferem o genero masculino do feminino?

3 Resultados e Discussão

3.1 Análise Descritiva

Inicialmente, separamos uma base de dados para ajuste dos modelos com 90% dos dados orig-inais, este base é composta por 1.431 registros de vozes femininas e 1.420 de vozes masculinas, totalizando 2.851 registros. Os demais registros foram destinados para a validação do modelo. Na análise descritiva foram observados os gráficos Boxplot das variáveis em relação ao genero.

(5)

Gráfico 1: Relação das varíáveis com sexo Vejamos como as variáveis se correlacionam entre si:

(6)

Gráfico 2: Correlação das variáveis

3.2 Seleção do Modelo

Considerando os valores apresentados no tópico anterior, foi analisada qual a melhor função de ligação para a distribuição Binomial, onde os resultados estão apresentados abaixo:

Tabela 1: Valores de AIC, logverossimilhança, método de seleção de variavies

Forwad Backward Both

Função de Ligação AIC LVS AIC LVS AIC LVS Logit 520.489 -251.245 520.086 -252.043 520.086 -252.043 Probit 554.168 -268.084 552.985 -268.493 552.985 -268.493 Cauchit 505.361 -241.681 497.967 -230.983 497.967 -230.983 Cloglog 498.601 -237.300 498.601 -237.300 498.601 -237.300

Vemos que o melhor resultado foi com a função de ligação Cauchy e metodo seleção de variáveis de Akaike Backward ou Both.

Além do método de seleção de Akaike, foram utilizados os métodos de regularização regressão Lasso, regressão Ridge e regressão Ridge com α = 0.5, após os cálculos apresentamos uma tabela de resumo com os AIC e métodos escolhidos.

Tabela 2: Valores de AIC x Modelos de seleção de variáveis Método de seleção AIC

Binomial (link = Cauchy) 497.97 Regressão Lasso 530.86 Regressão Ridge 536.54 Regressão Ridge (α=0.5) 533.46

(7)

Percebemos que o menor AIC encontrado foi o gerado pelo método de Akaike com distribuição Binomial com função de ligação Cauchy.

Ao analisarmos o modelo proposto verificamos que haviam valores expressivos dos betas e erros padrões e que não condiziam com a realidade. Refizemos um novo estudo utilizando técnicas de análise multi-variada com enfase em Análise de Componentes Principais, que apresentaremos a seguir.

Para a realização dos cálculos de A.C.P. os valores das variáveis foram escalonadas, ou seja, foram eliminados os problemas de diferentes escalas na base de dados.

O gráfico de variação demonstra que são necessários cinco dimensões para explicarmos mais de 80% da variação acumulada dos dados.

Grafico 03: Composição das dimensões

(8)

Grafico 04: Correlação entre as dimensões

Apresentamos os valores de AIC e logverossimilhança do modelo de A.C.P. para as diferentes funções de ligação.

Tabela 3: Valores de AIC, logverossimilhança com as dimensões Função de Ligação AIC LVS

Logit 1687.614 -838.807 Probit 1716.624 -853.312 Cauchit 1695.464 -841.732 Cloglog 1820.583 -905.291

Foram utilizados os metodos de regularização Lasso e Ridge, onde primeiro modelo apresentou o mesmo AIC com a retirada a terceira dimensão (Dim.3). Já o modelo Ridge não apresentou resultado expressivos em relação ao modelo proposto.

3.3 Ajuste do modelo

A definição do modelo ficou assim definido com o modelo binomial

Yi|xi ∼ Binomial(mi, πi)

Abaixo demonstramos o modelo binomial com função de ligação logito na escala do preditor: ln( π ˜x

1 − π ˜x) = β0+ β1Dim.1 + β2Dim.2 + β3Dim.4 + β4Dim.5

e na escala da resposta

p(x) = e

β01Dim.1+β2Dim.2+β3Dim.4+β4Dim.5

1 + eβ01Dim.1+β2Dim.2+β3Dim.4+β4Dim.5

Comparando os modelos que utilizam o A.C.P. e o Critério de Informação de Akaike (AIC) no gráfico Half-Normal Plots com envolepe simulado, percebemos que ambos apresentam pontos fora do envelope simulado.

(9)

Gráfico 5: Half-Normal Plot com envelope simulado

4 Conclusão

Analisados os resultados de sensibilidade, especificidade e acurácia dos modelos, estes apontam para o que utiliza a Análise de Componentes Principais apresenta uma acurácia menor, tendo em vista a perda do poder preditivo devido ao resumo das informações das variáveis. Já o modelo que utiliza os valores originais das variáveis possui um poder preditivo maior, mas em contra partida os valores dos betas e erros padrões ficam distorcidos, dificultando a interpretação das estimativas.

Abaixo apresentamos a tabela de dupla entrada com os valores de cada modelo: Tabela 4: Comparação entre os modelos A.C.P. e Cauchy

A.C.P. Cauchy

Feminino Masculino Feminino Masculino

Voz Feminina 139 12 150 4

Voz Masculina 14 152 3 160

Listamos abaixo os valores de Sensibilidade, Especificidade e Acurária para o modelo A.C.P.: Sens.: 152 164 = 92.68%, a Espec.: 139 153 = 90.85%, e a Acurácia: 139+152 153+164 = 91.80% E para o modelo Cauchy:

Sens.: 160164 = 97.56%, a Espec.: 150153 = 98.04%, e a Acurácia: 160+150153+164 = 97.80%

Como o intuído da análise não é o uso das variáveis para predição, temos o gráfico de efeitos das variávies em relação ao sexo.

Referências

Documentos relacionados

Do mesmo modo como um administrador, o filósofo não pode trabalhar com um problema que só interessa ou só tem valor para ele e para mais ninguém. Mas enquanto o administrador

Se o primário nesse teste for escolhido como sendo o enrolamento oposto ao usado no ensaio de curto-circuito, deve-se assegurar-se de que as diversas impedâncias medidas

pelo Ofício no 337/98 (fls. 33/34) e a participação do terceiro e quarto denunciados. estão presentes nas assinaturas dos atos de licenciamento do desmatamento"

Promover o clube aDPF recreativa mediante a execução de um calendário anual de eventos e celebrações para integração dos associados e seus familiares em todo o

Mas lembre-se: só opte pela ajuda de um profissional caso você tenha mais tempo para escolher uma profissão, pois esse é um trabalho feito a longo prazo, a partir de conversas e

O presente estudo aborda a cultura hip hop em uma cidade de médio porte do interior do Brasil buscando reconhecer como se dá a formação da identi- dade rapper na periferia tomando

item 1, mediante entrega da documentação solicitada no Edital de Convocação. 4.2 Ter obtido pontuação mínima para a aprovação conforme item 8.1 deste Edital. 4.3 Ter