An´ alise com Dados de Voz e Imagens

3.3 Valida¸c˜ ao da Abordagem

3.3.6 An´ alise dos Dados

3.3.6.3 An´ alise com Dados de Voz e Imagens

A terceira abordagem de análise foi realizada utilizando a combina¸cão dos dados de fala, imagens faciais e imagens da tela. Como os experimentos anteriores apresentaram maior eficiência na utiliza¸cão dos dados de fala em rela¸cão aos dados de imagens faciais ficou determinado como parâmetro para identifica¸cão das opiniões dos usuários as palavras pronunciadas, assim as imagens faciais e de telas foram utilizadas como apoio para enriquecer os dados e melhorar a análise e tomada de decisão.

3.3 Valida¸c˜ao da Abordagem 137

A análise seguiu os mesmos processos realizados nas abordagens anteriores, ou seja, primeiro foram identificadas palavras de classifica¸cão negativa, seguidas pela palavra de maior classifica¸cão positiva ( Ótimo) e por último analisadas as palavras “Bom”para situa¸cões que exigissem tal estudo.

Identificadas as palavras alvo, foi poss´ıvel realizar uma an´alise que come¸cava a partir da palavra pronunciada, que permitia acessar as imagens de tela e, a partir do momento de registro de determinada interface, acessar as imagens faciais.

A estrutura permitiu a cria¸cão de uma árvore batizada de “ Árvore do Ambiente”. Nessa árvore, o nó raiz é a palavra pronunciada pelo participante e guia principal para busca de informa¸cões. A partir do nó raiz era poss´ıvel acessar as imagens da tela que foram utilizadas por cada participante no momento da pronuncia, instantes antes e instante após. Como o avaliador pode indicar o intervalo de tempo de seu interesse para busca de imagens, para cada imagem pode ser relacionada uma ou várias imagens de tela. As imagens da tela eram consideradas outros nós da árvore, este em um segundo n´ıvel, ou de profundidade dois. Selecionado uma imagem e indicando um intervalo de tempo, era poss´ıvel acessar uma série de imagens da face do participante no momento, antes e após determinada tela, estas consideradas nós folhas da árvore. A Figura 54 apresenta o modelo desta abordagem.

3.3 Valida¸c˜ao da Abordagem 138

O parâmetro para busca de imagens de tela e imagens faciais foi o intervalo espe- cificado pelo participante no momento da análise. Nesta estrutura, considerando uma palavra pronunciada com 05 minutos e 20 segundos de teste e um valor de intervalo de 6 segundos, o ErgoSV buscava todas as imagens de tela registrada entre o tempo de 05 minutos e 14 segundos até o tempo de 05 minutos e 26 segundos. Neste momento não eram exibidas imagens faciais, esta situa¸cão ocorria após o a sele¸cão de uma imagem e o acionamento do comando de exibi¸cão. Selecionada uma imagem, por exemplo, registrada no momento de 05 minutos e 24 segundos, o ErgoSV seleciona as imagens faciais em uma intervalo de 6 segundos antes e depois do momento da imagem, ou seja, eram exibidas as imagens faciais registradas entre o tempo de 05 minutos e 18 segundos e 05 minutos e 30 segundos. Juntamente com a imagem facial eram exibidos dados tais como percentual de similaridade e horário de registro, funcionalidade esta já apresentada nos cap´ıtulos anteriores.

Uma grande contribui¸cão desta análise foi a rela¸cão da interface utilizada pelo participante no momento da rea¸cão e a posi¸cão de seu resto e de seus olhos. Com isso, foi poss´ıvel solucionar, a princ´ıpio, um problema encontrado na abordagem de análise utilizando somente dados de fala a qual obteve êxito para identificar interfaces com problemas, mas não permitia identificar o foco de visão do usuário.

Considerando a posi¸cão do usuário em frente da câmera e a forma como o mesmo olhava a imagem foi poss´ıvel direcionar qual era o lado, quadrante ou canto para o qual o mesmo olhava no momento da rea¸cão. A Figura 55 apresenta um exemplo no qual é exibido uma imagem facial registrada próximo ao momento em que o participante pronunciou a palavra “Regular”. Olhando a imagem facial foi poss´ıvel verificar que o usuário olhava para o canto inferior direito da imagem. Portanto, foi poss´ıvel assumir que o conceito aplicado se referia às funcionalidades ou caracter´ısticas da interface que se encontravam nesta posi¸cão da tela.

Em um segundo exemplo, apresentado na Figura 56, o aplicativo ErgoSV registra a pronuncia da palavra “Péssimo”, a imagem da tela e da face do participante. Nesta imagem é poss´ıvel analisar que o usuário olha atentamente para o canto esquerdo do monitor/interface. Isto permitiu assumir que o foco da avalia¸cão se referia a recursos localizados nesta posi¸cão.

O tempo da análise dos dados dos testes aumentou em rela¸cão à primeira abordagem de análise, porém manteve-se dentro dos 50% de acréscimo em rela¸cão ao tempo total de coleta. O aumento do tempo de análise deu-se por motivo do maior número de dados

3.3 Valida¸c˜ao da Abordagem 139

Figura 55 – Imagem facial e imagem de tela com poss´ıvel local de insatisfa¸c˜ao

Figura 56 – Imagem facial e imagem de tela com poss´ıvel local de insatisfa¸c˜ao

para estudo, visto que acrescentou-se dados de imagens faciais e os mesmos requereram um tempo para estudo e deteçcão de informa¸cões relevantes. O tempo dos testes nesta terceira abordagem utilizando palavras pronunciadas, imagens da tela e imagens faciais foi de:

• WCE: 85 minutos;

• WPG 30 minutos;

• PEM 85 minutos;

Por fim, a análise dos dados utilizando a combina¸cão de palavras pronunciadas e imagens faciais apoiadas por imagens da tela foi considerada satisfatória devido ao fato que proporcionou a maior quantidade de informa¸cões relevantes e permitiu uma análise com mais detalhada dos dados. Nesta abordagem foi poss´ıvel identificar a opinião do participante por meio das palavras, quais interfaces ele utilizava no momento e próximo

No documento Um ambiente de avaliação da usabilidade de software apoiado por técnicas de processamento de imagens e reconhecimento de fala (páginas 138-142)