• Nenhum resultado encontrado

Desenvolvimento de sistema para apoio a triagem de dislexia

N/A
N/A
Protected

Academic year: 2021

Share "Desenvolvimento de sistema para apoio a triagem de dislexia"

Copied!
82
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE TECNOLOGIA

DEPARTAMENTO DE ENGENHARIA MECÂNICA

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA MECÂNICA

SISTEMA DE USO COMPUTACIONAL PARA APOIO A TRIAGEM DE DISLEXIA

ALESSANDRO MARINHO DE ALBUQUERQUE

Natal/ RN 2013

(2)

ALESSANDRO MARINHO DE ALBUQUERQUE

SISTEMA DE USO COMPUTACIONAL PARA APOIO A TRIAGEM DE DISLEXIA

Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Engenharia Mecânica do Departamento de Engenharia Mecânica da Universidade Federal do Rio Grande do Norte (área de concentração: Mecânica Computacional) como requisito para a obtenção do grau de Mestre em Engenharia Mecânica.

Orientador: Prof. Dr. Danilo Nagem

Natal/ RN 2013

(3)

AGRADECIMENTOS

Ao professor, amigo e orientador Dr. Danilo Nagem, ao modo como me apoiou neste trabalho: uma orientação científica criteriosa e crítica, me estimulando e dando tempo para uma construção pessoal e profissional. A disponibilidade que sempre manifestou e a simpatia com que recebeu minhas ideias foram o estímulo que me permitiu vencer as inseguranças deste trabalho, enfim, um modelo de professor a ser seguido.

Aos meus pais, por terem me fornecido um ambiente educacional, de amor e repleto de saúde que me permitiram chegar até aqui.

A minha namorada Karla Vida, que me deu todo suporte emocional, e paciência frente ao meu extenso tempo de pesquisa e escrita deste trabalho.

Aos professores e colegas de trabalho Raphaela Galhardo e Gleydson Lima por terem sido o pilar de minha formação profissional, trazendo a disciplina e dedicação no trabalho aos meus estudos.

A Universidade Federal do Rio Grande do Norte, por ter sido a instituição que me deu suporte a várias conquistas acadêmicas e profissionais desde meu nascimento ficou presente na minha vida.

(4)

RESUMO

ALBUQUERQUE, A.M. – Sistema de Uso Computacional para Apoio a Triagem de Dislexia. Natal/RN, 2013. Dissertação (Mestrado) - Universidade Federal do Rio Grande do Norte.

Na área da saúde, a análise de movimentos do corpo pode ser utilizada para auxiliar o diagnóstico e a investigação de doenças. Nas últimas décadas, a tecnologia de rastreamento de objetos foi utilizada com diferentes propósitos tais como a detecção do movimento de um indivíduo, a detecção de faces com o intuito de definir emoções e a detecção de olhos, conhecida como eye-tracking, entre outros. Trabalhos recentes apontam que sistemas de rastreamento ocular, podem ser úteis para o apoio do diagnóstico de várias patologias, como por exemplo, a dislexia. O processo de diagnóstico da dislexia é complexo, caro e demanda tempo, devido à participação de uma equipe multidisciplinar, formada por neurologistas, psicólogos, fonoaudiólogos, oftalmologistas, entre outros. Cada profissional realiza exames específicos, podendo estar associado a diversas causas, uma interconexão dos resultados desses exames é utilizada para estabelecer o diagnóstico. Os sistemas existentes para o diagnóstico são caros e carecem de mobilidade, dificultando a acessibilidade. O presente trabalho tem como objetivo estudar e estabelecer os parâmetros de uso e especificações de software e hardware para a implementação de um sistema, doravante denominado DysTracker. O sistema é proposto para apresentar baixo custo e alta mobilidade, sendo capaz de detectar o movimento dos olhos. Como ferramenta de saúde, o sistema é capaz de gerar relatórios e gravação de vídeo, que juntamente com os critérios de definição de ambiente de captura, especificação e posição dos sensores e emissores infravermelhos, vão servir como parâmetros para a construção de um sistema de apoio a triagem de dislexia baseada na deficiência do movimento ocular, como também outras patologias da mesma natureza.

(5)

ABSTRACT

ALBUQUERQUE, A.M. – Computing System for Dyslexia Support Triage. Natal/RN, 2013. Master Dissertation - Federal Univeristy of Rio Grande do Norte.

Human motion analysis has become an investigative and diagnostic tool on medicine, sports and video surveillance areas. In the medicine field, the motion analysis can be used to help diagnostic process and pathologies investigation. Over the past decades, the object tracking technology has been used for diferentes purposes such as movement detection of a specific part of the body, face detection with the aim to define emotions and eye detection, known as eye-tracking. Recent works indicates that eye-tracking systems can be useful to help diagnosis of many pathologies such as dyslexia. The diagnosis process of dyslexia is complex, expensive and takes time, because it is necessary a multidisciplinary team made up of differents health professionals such as neurologist, psychologist, speech therapist, ophthalmologist, and others. Each professional realizes specific procedures that may be related to many causes, a connection of these procedure’s results is used to establish the diagnosis. The diagnosis systems available on the market are expensive and has some mobility problems. This present research aims to study and establish use parameters, software and hardware specifications for the creation of a system called as Dystracker. The system offers a low cost and high mobility, being able to detect eye movement. As a health tool, the system is capable to create reports and record procedures. This, with the definition of scene capture such as sensor’s and IR emitter’s positions will serve as parameters to build a system capable to support dyslexia triage based on ocular motricity déficits, besides other pathologie of the same nature.

(6)

LISTA DE FIGURAS

Figura 1 - Distorções da síndrome de Irlen. ... 20

Figura 2 - Principais componentes do sistema visual ... 21

Figura 3 - Movimentos sacádicos (linhas) e fixações (círculos). ... 22

Figura 4 - Leitura feita por disléxico ... 23

Figura 5 - Representação numérica de uma imagem ampliada de 10x10 pixels com 256 tons de cinza ... 24

Figura 6 - Elementos de um sistema de rastreamento de imagem... 25

Figura 7 - Níveis de Processamento ... 26

Figura 8 - Técnicas de processamento de imagem ... 28

Figura 9 - Representação dos tipos de features. ... 30

Figura 10 - Sistemas eye tracking que exigem imobilização ... 33

Figura 11 - Sistemas eye tracking em tempo real ... 33

Figura 12 - Eye tracking modernos ... 34

Figura 13 - a) Pequena bobina anexada a uma lente de contato; b) lente de contato posicionada sobre o olho humano; c) ferramentas de instalação da lente. ... 35

Figura 14 - a) Unidade de gravação eletro-fisiológico; b) Usuária de um eye-tracking baseado em eletro-oculografia; c) diversos tipos de eletrodo. ... 35

Figura 15 - a) Efeito pupila-escura; b) Efeito pupila-brilhante ... 37

Figura 16 - Emissores IR (Esquerda) e Webcam Logitech (Direita) ... 39

Figura 17 - Diagrama de caso de uso do sistema. ... 40

Figura 18 - Captura de Usuário. ... 42

Figura 19 - Modelo utilizado para primeira fase de experimento. ... 43

Figura 20 - Distâncias testadas no terceiro experimento. ... 44

Figura 21 - Esquema modular das técnicas utilizadas ... 45

Figura 22 - Teleprompter desenvolvido. ... 45

Figura 23 - Trecho de código que corresponde a aquisição de imagem... 46

Figura 24 - Código de conversão em escala de cinza ... 47

Figura 25 - Código de contorno/elipse para a pupila ... 50

Figura 26 - Frame resultado do primeiro experimento ... 51

Figura 27 - Gráfico da posição XY da pupila classificada esquerda e direita no primeiro experimento ... 51

(7)

Figura 29 - Gráfico do desvio padrão das pupilas em cm no primeiro experimento ... 52

Figura 30 – Amostra e resultado da classificação do olho segundo experimento sem luz infravermelha(A,C) e com luz infravermelha (B,D) ... 53

Figura 31 - Quantitativo de Pupilas encontradas no segundo experimento ... 53

Figura 32 - Quantitativo detectado em cada distância no terceiro experimento ... 53

Figura 33 - Desvio padrão de cada distância no terceiro experimento em cm ... 54

Figura 34 - Resultado das técnicas aplicadas no primeiro experimento... 55

Figura 35 - Interface do profissional ... 56

Figura 36 - Interface do leitor ... 57

Figura 37 - A) Distância de 15cm, B) Distância de 20cm, C) Distância de 25cm, D) Distância de 30cm, E) Distância de 40cm com teleprompter ... 57

Figura 38 - Gráfico da posição XY da pupila direita Modelo A Tarefa 1 ... 58

Figura 39 - Gráfico da posição XY da pupila esquerda Modelo A Tarefa 1 ... 58

Figura 40 - Gráfico Variação do eixo X na pupila direita Modelo A Tarefa 1 ... 59

Figura 41 - Gráfico Variação do eixo X da pupila esquerda Modelo A Tarefa 1 ... 59

Figura 42 - Gráfico da variação do eixo Y na pupila direita Modelo A Tarefa 1 ... 60

Figura 43 - Gráfico da variação do eixo Y na pupila esquerda Modelo A Tarefa 1 ... 60

Figura 44 - Total de pupilas encontradas na tarefa 1 Modelo A ... 61

Figura 45 - Gráfico da posição XY da pupila direita Modelo A Tarefa 2 ... 61

Figura 46 - Gráfico da Posição XY da pupila esquerda Modelo A Tarefa 2...61

Figura 47 - Gráfico da variação do eixo X da pupila direita sobre o tempo Modelo A Tarefa 2...62

Figura 48 - Gráfico da variação do eixo X da pupila esquerda. Modelo A Tarefa 2 ... 63

Figura 49 - Gráfico da variação do eixo Y da pupila direita sobre o tempo Modelo A Tarefa 2...63

Figura 50 - Gráfico da variação do eixo Y da pupila esquerda sobre o tempo Modelo A Tarefa 2 ... 64

Figura 51 - Total de pupilas encontradas Modelo A Tarefa 2 ... 645

Figura 52 - Gráfico da posição XY da pupila direita Modelo A Tarefa 3 ... 65

Figura 53 - Gráfico da posição XY da pupila esquerda Modelo A Tarefa 3 ... 645

Figura 54 - Gráfico da variação do eixo X da pupila direita Modelo A Tarefa 3 ... 66

Figura 55 - Gráfico da variação do eixo X da pupila esquerda Modelo A Tarefa 3 ... 66

Figura 56 - Gráfico da variação do eixo Y da pupila direita Modelo A Tarefa 3 ... 67

Figura 57 - Gráfico da variação do eixo Y da pupila esquerda Modelo A Tarefa 3 ... 67

(8)

Figura 59 - Gráficos da Variação XY de cada pupila na primeira tarefa no Modelo B . 68 Figura 60 - Totais de pupilas na primeira tarefa no Modelo B ... 689 Figura 61 - A) Modelo B - Primeiro teste aplicado B) e C) Posição XY das pupilas a 15cm D) e E) Variação do movimento horizontal da pupila a 15cm E) e F) Variação do movimento vertical da pupila a 15 cm ... 689 Figura 62 - Totais de pupilas na segunda tarefa no Modelo B ... 70 Figura 63 - Gráficos da Variação XY de cada pupila na terceira tarefa no Modelo B... 70

(9)

LISTA DE TABELAS

Tabela 1 - Teste de Desenvolvimento Escolar aplicado (AIRES, 2011) ... 17

Tabela 2 - Aspectos da Dislexia(SOARES, 2010) ... 18

Tabela 3 - Tabela Comparativa dos Métodos ... 38

Tabela 4 - Especificação dos casos de uso ... 41

Tabela 5 - Requisitos Não-Funcionais... 42

Tabela 6 - Questões do Ambiente de Captura ... 43

Tabela 7 - Parâmetros Haar Cascade Face ... 48

Tabela 8 - Parâmetros Haar Cascade Olho ... 49

Tabela 9 - Tipos de suavização aplicados ... 49

(10)

SUMÁRIO 1 INTRODUÇÃO ... 11 1.1 Objetivo Geral ... 12 1.2 Objetivo Específico ... 12 1.3 Contribuições ... 13 2 CONSIDERAÇÕES INICIAIS ... 13 2.1 A Leitura e Escrita ... 13 2.2 O Papel da Escola ... 14 2.3 Dislexia ... 14 2.6 Percepção Visual ... 20 2.6.1 Fisiologia ... 20 2.6.2 Movimentos Oculares ... 21

2.6.3 Percepção Visual na Leitura ... 22

2.6.4 A Dislexia ... 23

3 REVISÃO BIBLIOGRÁFICA ... 24

3.1 Imagem Digital ... 24

3.2 Sistemas de Análise de Imagem ... 24

3.2.1 Aquisição ... 25

3.2.2 Armazenamento ... 25

3.2.3 Processamento ... 26

3.2.5 Exibição ... 31

3.4 Rastreamento do Olhar ... 32

3.4.1 História dos Sensores ... 32

3.4.2 Tipos de Sensores ... 34

3.5 Métodos de Rastreio ... 34

3.5.1 Lentes de Contato Especiais Scleral Search Coil ... 34

3.5.2 Eletro-oculografia (EOG) ... 35

3.5.3 Vídeo-oculografia (VOG) ... 36

3.5.4 Vídeo-oculografia baseada no centro da pupila/reflexão na córnea (PC/CR) ... 36

3.6 Análise Comparativa dos Métodos ... 37

4 METODOLOGIA ... 38

4.1 Hardware ... 39

4.2 Software ... 39

4.2.1 Requisitos do Sistema ... 40

4.2.2 Requisitos não funcionais ... 41

4.3 Definição e Implementação de Aspectos de Captura ... 42

(11)

4.3.2 Pré-Processamento Da Face ... 46

4.3.3 Detecção da Face ... 47

4.3.4 Pré-processamento e detecção de olhos/pupila ... 49

5 RESULTADOS ... 50

5.1 Primeira fase - Definição de parâmetros da captura ... 50

5.1.1 - Primeiro experimento - Influência de outros objetos na captura ... 51

5.1.2 - Segundo experimento – Influência da luz na captura com distâncias de 15cm ... 52

5.1.3 - Terceiro experimento – Teste das distâncias ... 53

5.2. Resultado das técnicas aplicadas ... 55

5.3. Análise da Primeira Fase de Experimentos ... 55

5.4. Segundo Experimento ... 56

5.5. Interfaces Gráficas ... 56

5.6. Resultados Modelo A – Primeira tarefa ... 58

5.8. Resultados Modelo A - Terceira tarefa ... 64

5.9. Resultados Modelo B – Primeira Tarefa ... 68

5.11. Resultados Modelo B – Terceira Tarefa ... 70

6. DISCUSSÃO ... 71

7. CONCLUSÃO ... 73

8. TRABALHOS FUTUROS ... 74

(12)

1 INTRODUÇÃO

Pesquisas sobre a detecção do movimento dos olhos como, parte dos estudos de Interação Homem-Computador (IHC), datam da década de 1980. Com o avanço dos computadores pessoais, pesquisadores buscavam enriquecer as relações de IHC, assim como possibilitar a inclusão digital de deficientes, coletando e analisando suas reações em tempo real a partir do computador considerando a natureza da deficiência (HUTCHINSON, 1989).

Uma dessas deficiências, denominada dislexia, tem como principal característica, a incapacidade de ler total ou parcial do indivíduo. Segundo estatísticas da Associação Internacional de Dislexia, esse distúrbio afeta cerca de 10 a 15% da população leitora, dentre estes, cerca de 40% apresenta uma dislexia profunda e 60% possui uma dislexia superficial com problemas moderados. O indivíduo com dislexia apresenta dificuldade social, e tem seu processo de aprendizado geral prejudicado, podendo ocorrer em indivíduos de todos os estratos sociais, desde aqueles com baixo grau de escolaridade até aqueles com graus acadêmicos elevados (INTERNATIONAL ASSOCIATION OF DYSLEXIA, 2002).

O processo de diagnóstico da dislexia tem sido uma das grandes dificuldades enfrentadas pelos profissionais da área da saúde e educação. Ainda há discussões para se definir e quantificar os critérios que determinam se uma pessoa tem ou não esse transtorno (DAVIS et al, 2004). O processo de diagnóstico da dislexia é complexo, caro e demanda tempo, devido à participação de uma equipe multidisciplinar, formada por neurologistas, psicólogos, fonoaudiólogos, oftalmologistas, entre outros. Cada profissional realiza exames específicos, e uma interconexão dos resultados desses exames é utilizada para estabelecer o diagnóstico, uma vez que a origem desse distúrbio pode estar associada a diversas causas. Os sistemas existentes que dão suporte a identificação de dislexia são caros e carecem de mobilidade, dificultando seu acesso por parte da população. Para a identificação de dislexia, o uso de processos automatizados de custo acessível torna-se cada vez mais necessário, auxiliando na redução dos custos para rede de saúde pública nacional, como também aumentando a abrangência de uso e melhorando a qualidade do aprendizado dos alunos (DUTRA; SOUZA, 2001).

Há algumas teorias relativas aos aspectos visuais na dislexia, dentre as mais citadas estão a de Stein (2001), o qual afirma que a dislexia pode se manifestar como um déficit no movimento do globo ocular e a de Pensiero (2013) cujo foco se concentra na deficiência da codificação da palavra. Já as pesquisas de Guimarães (2008) relacionam a

(13)

síndrome de Mears-Irlen, deficiência visual perceptiva que causa distorções na leitura à dislexia.

De acordo com Rigueira (2009), estudos relacionados ao padrão de movimento dos olhos durante a leitura vêm auxiliando no diagnóstico precoce da dislexia. Esses estudos apontam que sistemas de rastreamento dos olhos podem ser úteis para apoiar no processo de triagem de dislexia que podem ter como causa aspectos visuais.

A detecção do movimento dos olhos pode ser feita através de equipamentos intrusivos e não-intrusivos. Os sistemas intrusivos empregam dispositivos especiais como óculos e eletrodos para aquisição das imagens dos olhos, já os não-intrusivos empregam câmeras e software que fazem a captação de imagens. Segundo Moretto (2004), as técnicas intrusivas possuem uma taxa de acerto da localização dos olhos maior que os sistemas não-intrusivos, uma vez que a localização do olho é facilitada, porém, seu custo é alto e seu acesso é restrito frente as técnicas não intrusivas.

Dado este contexto, o trabalho visa apresentar um sistema capaz de detectar o movimento dos olhos e que tenha mobilidade e baixo custo, sendo capaz de gerar relatórios e gravação de vídeo que servirão, juntamente com os critérios de definição de ambiente de captura, especificação e posição dos sensores e emissores infravermelhos, como parâmetros para a construção de um sistema de apoio a triagem de dislexia e outras patologias da mesma natureza.

1.1 Objetivo Geral

Desenvolver um sistema para auxiliar no processo de triagem de dislexia que tem como causa a deficiência do movimento ocular, baseado em sensores de movimento.

1.2 Objetivo Específico

 Identificar os componentes do hardware com base em custo, manutenção, acessibilidade e mobilidade;

 Definir linguagem de programação para construção do software com base no custo e facilidade de documentação;

 Definir os requisitos funcionais e não funcionais do software;  Definir e implementar os aspectos de captura do software.  Testar software em modelos reais;

(14)

1.3 Contribuições

 Servir como base para estudar o diagnóstico de outras patologias;

 Apoiar a triagem da dislexia que tem como causa a deficiência do movimento ocular tendo como consequência a diminuição de evasão escolar e índice de repetência.

2 CONSIDERAÇÕES INICIAIS 2.1 A Leitura e Escrita

A leitura não pode apenas ser considerada como uma interpretação dos signos do alfabeto. Produz sentido, ou seja, surge da vivência de cada um e é posta como prática na compreensão do mundo na qual o sujeito está inserido. Tal aprendizagem está ligada ao processo de formação geral de um indivíduo e sua capacitação dentro da sociedade, como, por exemplo: a atuação política, econômica e cultural, o convívio com a sociedade, seja no âmbito da família ou do trabalho (BRITO, 2010).

A leitura desenvolve a capacidade intelectual, a criatividade e a relação com o meio externo. O indivíduo que faz parte do universo da leitura tende a aprender melhor novas habilidades, ao contrário daquelas que não possuem contato com esse universo (BRITO, 2010).

Segundo relata Pinheiro (1988), a falta de leitura pode levar o indivíduo a vários problemas, dentre eles, o isolamento social, redução da capacidade intelectual por não conseguir ter acesso à informação, e isso reflete em toda sociedade.

O desinteresse pela leitura é um grave problema, pois a falta de informação leva à preguiça mental e conduz a sociedade ao caos social e cultural; infelizmente, nos meios acadêmicos também. Ora, se o contingente universitário apresenta sérios problemas no que diz respeito à leitura, linguagem, etc., sendo ele considerado parte da elite pensante do país, isso nada mais é do que o reflexo de uma organização desestruturada em termos de formação de futuros leitores e incentivadores da leitura (PINHEIRO, 1988, pág. 25).

A leitura e a escrita segue um processo que segundo Frith (1990) e Morton (1989), é dividido em três estágios, por quais as pessoas passam durante a aquisição de leitura e escrita: logográfico, alfabético e ortográfico.

(15)

No estágio logográfico, o indivíduo trata a palavra como se fosse uma representação de um desenho, sem atentar-se a sua característica alfabética, ou seja, a leitura consiste no reconhecimento visual de algumas palavras simples que o indivíduo encontra com grande frequência fora do controle dos sons da fala (CAPOVILLA, 2005). À medida que o indivíduo passa a ter mais contato com as palavras e recebe instruções sobre a linguagem escrita, tem início o segundo estágio: o alfabético, quando se aprende a converter as letras do texto em sons correspondentes durante a leitura e escrita (CAPOVILLA, 2005).

No último estágio, o ortográfico, a leitura e a escrita ocorrem por reconhecimento visual direto das formas ortográficas de morfemas ou de palavras, pré-armazenadas no léxico. O indivíduo passa, portanto, a ler e escrever corretamente palavras irregulares, como por exemplo, aquelas em que a letra x tem sons irregulares (e.g., nas palavras exército e próximo) (CAPOVILLA, 2005).

Portanto, segundo Capovilla (2005), o processo de leitura e escrita se baseia em duas estratégias: pela estratégia fonológica (desenvolvida no estágio alfabético) ou pela estratégia lexical (desenvolvida no estágio ortográfico).

2.2 O Papel da Escola

A escola é por excelência o espaço privilegiado para a construção do conhecimento sistematizado. Por sua vez, ela contempla a diversidade, ou seja, as diferentes aptidões entre os alunos. Ao mesmo tempo, ela responde pela ideologia do ensino de qualidade para todos, como também os prepara para a vida (GARCIA, 2012). Diante de toda essa demanda, a escola não deve se posicionar apenas no discurso ideológico, mas pôr em prática novas técnicas, novos conceitos para poder surgir novos sujeitos de conhecimento e poder enfrentar novos desafios. Uma vez detectada alguma dificuldade de aprendizagem do aluno, a escola precisa encontrar caminhos para promover a aprendizagem destas crianças aliada com a área médica, se for o caso (LIMA, 2002).

2.3 Dislexia

Jardini (2003) classifica os distúrbios da aprendizagem dentro dos transtornos geralmente diagnosticados pela primeira vez na infância ou na adolescência:

(16)

Dificuldade de aprendizagem é um termo geral que se refere a um grupo heterogêneo de transtornos que se manifestam por dificuldades significativas na aquisição e uso da escuta, fala, leitura, escrita, raciocínio e habilidades matemáticas. Esses transtornos são intrínsecos ao indivíduo, supondo-se devido à disfunção do sistema nervoso central, e podem ocorrer ao longo do ciclo vital. Podem existir, junto com as dificuldades de aprendizagem, problemas nas condutas da auto-regulação, percepção social e interação social, mas não constituem por si próprias, uma dificuldade da aprendizagem. Ainda que as dificuldades de aprendizagem possam ocorrer concomitantemente com outras condições incapacitantes, por exemplo: deficiências sensoriais, retardamento mental, transtornos emocionais graves ou com influências extrínsecas (tais como as diferenças culturais, instruções inapropriada ou insuficiente), não são o resultado dessas condições ou influências. Por isso, a necessidade de identificação e diagnóstico precoce dessas alterações no curso normal do desenvolvimento evita posteriores consequências educacionais e sociais desfavoráveis (JARDINI, 2003, pág. 27).

Sendo assim, distúrbio de leitura e de escrita é uma nomenclatura genérica, utilizada para definir as alterações que impedem ou dificultam a aquisição e continuidade do processo de leitura e escrita (GARCIA, 2012).

Podem apresentar-se de muitas formas, como, por exemplo:

Distúrbio da escrita: São distúrbios neurológicos que afetam especificamente a produção da escrita e podem aparecer de maneira isolada ou combinados a outras patologias, como dislexia. O termo dislexia é oriundo do grego, dys, que significa dificuldade e lexia quer dizer palavra, ou seja, dificuldade com a palavra. Essa dificuldade ocorre no estágio alfabético e ortográfico. Isso não significa que todos os problemas da fala, leitura e escrita possam ser associados à dislexia (Ibid., pág.28).

Durante o ano de 1877, o médico alemão Adolph Kussmaul fez o primeiro relato histórico sobre o caso de um paciente que perdeu a capacidade de ler, apesar de aparentemente conservar a visão, a inteligência e a linguagem e a isso ele atribuiu o nome de “cegueira verbal”, que corresponde ao termo atual de “alexia” (PIERI, 2007).

Já no ano de 1928, o neurologista americano Samuel Orton, após estudos em determinados pacientes, criou o termo “alexia de desenvolvimento” ao referenciar crianças que apresentavam problemas na leitura (ROTTA, 2006).

Desde então, este distúrbio tem recebido diversas denominações: “cegueira verbal congênita”, “dislexia congênita”, “estrefossimbolia”, “dislexia constitucional”, “parte do contínuo das perturbações de linguagem, caracterizada por um déficit no processamento verbal dos sons” (ROTTA, 2006).

(17)

Na década de 1960, sob a influência das correntes psicodinâmicas, foram minimizados os aspectos biológicos da dislexia, atribuindo as dificuldades de leitura a problemas emocionais, afetivos e imaturidade (ROTTA, 2006).

No ano de 1968, a Federação Mundial de Neurologia (FMN) definiu a dislexia como sendo um distúrbio que se manifesta através de dificuldades na aprendizagem da leitura, a despeito de instrução convencional, inteligência adequada e oportunidades socioeconômicas (BODER, 1973).

Em 2003, a Associação Internacional de Dislexia definiu a dislexia como uma incapacidade específica de aprendizagem, de origem neurobiológica sendo caracterizada por dificuldades na correção e/ou fluência na leitura de palavras e por baixa competência leitora e ortográfica, tais dificuldades resultam de um déficit fonológico, inesperado, em relação às outras capacidades cognitivas e às condições educativas. Secundariamente, podem surgir dificuldades de compreensão leitora, experiência de leitura reduzida que pode impedir o desenvolvimento do vocabulário e dos conhecimentos gerais (ASSOCIAÇÃO INTERNACIONAL DE DISLEXIA, 2003).

A definição mais citada pela literatura é a da Associação Européia de Dislexia (EDA), que caracteriza a dislexia como uma combinação de incapacidades e dificuldades que afetam o processo de aprendizagem em uma ou mais das áreas de leitura, ortografia e escrita. Fraquezas concomitantes podem ser identificadas nas áreas de processamento da velocidade, memória de curto prazo, sequencialização, percepção auditiva e/ou visual, linguagem falada e habilidades motoras. A dislexia está particularmente relacionada ao domínio e uso da linguagem escrita, o que pode incluir notação alfabética, numérica e musical (FARRELL, 2008).

As consequências da dislexia podem se resumir em: comprometimento do desenvolvimento escolar de forma global (Tabela 1), insegurança e medo de novas situações, baixa autoestima e discalculia. Caso não seja diagnosticado na fase infantil, o adulto pode apresentar uma tendência de isolamento social, além de persistir com os problemas de quando era criança (BAKKER, 2002).

(18)

Tabela 1 - Teste de Desenvolvimento Escolar aplicado (AIRES, 2011)

Grupo Pontos Acerto de

TDE/Escrita Pontos de Acerto TDE/Leitura Tempo em minutos de TDE/Leitura Grupo Não-Disléxico 28.73(DP: 4.80) 64.62(DP: 7.02) 122.91(DP: 50.09) Grupo Disléxico 12.63(DP: 12.03) 29.75(DP: 24.81) 604.50(DP: 399.10)

A dislexia é dividida em dois tipos principais (CIASCA, 1995):

 Dislexia Adquirida;

 Dislexia de Desenvolvimento.

Segundo Shaywitz (2006), a diferença entre dislexia adquirida e dislexia de desenvolvimento é:

Na dislexia adquirida, uma lesão estrutural que pode ocorrer devido a um tumor, por exemplo, interrompe o funcionamento de determinado componente do sistema neural, sendo que a lesão pode afetar o funcionamento de outras regiões do cérebro comprometendo a leitura e escrita. Na dislexia de desenvolvimento, é aquela na qual a inabilidade na aquisição completa da competência de leitura é de origem constitucional (SHAYWITZ, 2006, p. 615).

A dislexia adquirida pode ser classificada em dois tipos mediante a extensão da lesão e seus respectivos sintomas (SCHIRMER, 2004):

Periférica: a lesão se localiza na área do cérebro responsável pela análise visual, dificultando a percepção das letras;

Central: Além do comprometimento na área visual, afeta também a rota fonológica ou lexical ou até mesmo em ambas.

A classificação da dislexia de desenvolvimento segue um modelo proposto por Ianhez e Nico (2002):

Dislexia disfonética: dificuldades de percepção auditiva na análise e síntese de fonemas, dificuldades temporais, e nas percepções da sucessão e da duração (troca de fonemas – sons, grafemas – diferentes, dificuldades no reconhecimento e na leitura de palavras que não têm significado, alterações na ordem das letras e sílabas, omissões e acréscimos, maior dificuldade na escrita do que na leitura, substituições de palavras por sinônimos);

Dislexia diseidética: dificuldade na percepção visual, na percepção gestáltica, na análise e síntese de fonemas

(19)

Dislexia visual: deficiência na percepção visual; na coordenação visomotora;

Dislexia mista: que seria a combinação de mais de um tipo de dislexia.

Com base nas diversas causas da dislexia, a Associação Brasileira de Dislexia considera que a dislexia deve ser diagnosticada por uma equipe multidisciplinar, a fim de realizar um acompanhamento mais efetivo das dificuldades após o diagnóstico, direcionando-o às particularidades de cada indivíduo, levando a resultados mais concretos. (SOARES, 2010)

Na realização do diagnóstico devem-se utilizar procedimentos que possibilitem determinar a capacidade e o potencial funcional da leitura; extensão da deficiência; deficiências específicas; disfunções neuropsicológicas; fatores externos associados; organizar uma estratégia de desenvolvimento e recuperação para a melhoria do processamento neuropsicológico e para a integração das capacidades perceptivo-linguísticas (DEUSCHLE; CECHELLA, 2009).

Segundo Soares (2010), a Associação Brasileira de Dislexia mostra que alguns aspectos devem ser observados para se realizar o diagnóstico da dislexia, como mostra a Tabela 2.

Tabela 2 - Aspectos da Dislexia(SOARES, 2010) Aspectos da Dislexia

Dificuldades com rimas Histórico familiar de dislexia

Alterações precoces na linguagem Leitura e escrita incompreensíveis Ansiedade ao realizar testes Pânico ao ter que ler em voz alta

Dificuldade em soletrar Capacidade superior de aprendizagem aliada à

escrita deficiente Compreende a ideia principal, mas

não recorda os detalhes do texto

Confusões de letras com diferente orientação espacial

Troca de fonemas surdos por sonoros, ou o contrário

Substituições de palavras com estruturas semelhantes

Fragmentação incorreta em frases

A equipe de profissionais deve verificar todas as possibilidades antes de confirmar ou descartar o diagnóstico de dislexia. Isto é o que se chama de avaliação multidisciplinar e de exclusão, analisando os fatores como déficit intelectual, disfunções ou deficiências auditivas e visuais, lesões cerebrais (congênitas e adquiridas), desordens afetivas

(20)

anteriores ao processo de fracasso acadêmico. Nesse processo, ainda é muito importante tomar o parecer da instituição de ensino, dos pais e levantar o histórico familiar e da evolução do paciente (FREITAS, 2009).

De acordo com Araújo (2002), quanto aos diferentes profissionais envolvidos no diagnóstico da dislexia, o pedagogo/professor seria o responsável pela suspeita precoce e encaminhamento. Cabe a tal profissional, por ocasião da história, abordar aspectos relativos ao ensino e à família, uma vez que estes, junto com as integridades física e mental do indivíduo, contribuem com o seu adequado aprendizado. Algumas das situações que culminam com dificuldade no desempenho escolar se relacionam a fatores de risco preexistentes, e os primeiros sinais do problema podem estar aparentes nos primeiros anos de vida.

Os vários profissionais que podem estar envolvidos no diagnóstico são: fonoaudiólogos, que segundo Deuschle (2009) e Salgado (2006) são responsáveis por verificar os aspectos do processo de aquisição da linguagem do indivíduo, fazendo uso de técnicas que permitem análise da linguagem nos níveis fonológico, morfológico, sintático e semântico, como por exemplo, a avaliação fonoaudiológica, o otorrinolaringologista, que segundo Franco (2008) pode realizar o exame otorrinolaringológico que verifica alguma desordem de orelha, nariz e garganta que podem repercutir sobre o sistema auditivo e vestibular, os neurologistas que segundo Pestun (2002) realizam exames neurológicos como o Exame Neurológico Tradicional(ENT), Exame Neurológico Evolutivo(ENE) e Single Photon Emission Computed Tomography (SPECT), com o objetivo de verificar anormalidades cerebrais durante o processo de leitura e escrita. Segundo Lima (2009), o pedagogo e o professor irão aplicar testes escritos e orais observando a reação do indivíduo, já o psicológico irá levantar aspectos históricos relacionados a reação e comportamento do indivíduo durante situações como leitura e escrita, como também excluir fatores no âmbito escolar e familiar, por fim, o oftalmologista realiza exames relacionados a deficiências de visão, como por exemplo, o exame de acuidade visual, que mede a capacidade de enxergar detalhes, ou no caso da leitura, letras. O oftalmologista também examina a oculomotricidade e a existência de síndromes do processamento visual, como a Síndrome de Mears-Irlen (SMI) (GUIMARÃES, 2008).

A figura 1 revela dois tipos de distorções presentes na Síndrome de Irlen, a primeira cujas frases estão em ondas, e a segunda cujas frases estão em formato de redemoinho.

(21)

Figura 1 - Distorções da síndrome de Irlen. (GUIMARÃES, 2008)

Com base no diagnóstico multidisciplinar será possível descartar outras patologias de base e justificar a elaboração de um plano de tratamento da dislexia que será baseado nas causas. Como são as mais diversas possíveis, não há um tratamento padrão, sendo o ideal, um plano de trabalho multissensorial, gradativo e cumulativo, sendo que quanto mais estímulo o indivíduo receber, melhor será seu desenvolvimento (LIMA, 2009).

2.6 Percepção Visual

2.6.1 Fisiologia

A visão é possível graças ao sistema visual, constituído pelos olhos, os nervos ópticos e o centro visual (zonas do cérebro responsáveis pela visão). Os principais componentes dos olhos (Figura 2) que tem maior responsabilidade no sistema visual são (LUEGI, 2006):

Esclera: Região externa, branca e opaca, nela estão inseridos os músculos extra-oculares responsáveis pelos movimentos extra-oculares;

Íris: Situa-se na córnea, parte que pode possuir diversas tonalidades de cores (castanho,verde, azul). Seus músculos estão relacionados ao controle de expansão e contração da pupila;

(22)

Retina: Recebe os raios luminosos advindos da pupila e os transforma em sinal elétrico que serão transmitidos pelo nervo óptico para o cérebro aonde será formada a imagem;

Vítreo: Substância gelatinosa que preenche toda cavidade posterior do olho.

Figura 2 - Principais componentes do sistema visual (UCPEL, 2011)

2.6.2 Movimentos Oculares

O olho geralmente não se move pelo campo visual, o seu comportamento é de pequenos saltos repentinos chamados sacadas (saccades), movimentos rápidos acelerados e desacelerados de um destino para outro (HOFFMAN; SUBRAMANIAM, 1995).

Para além das sacadas, os olhos realizam movimentos de perseguição ou seguimento, movimentos de vergência e movimentos oculovestibulares. Os movimentos de seguimento ou perseguição se realizam quando se segue um objeto que está em movimento, são voluntários e têm como objetivo a colocação da imagem visual em movimento na retina. Os movimentos de vergência são os únicos em que os dois olhos se movem em direções opostas. O objetivo destes movimentos é projetar a mesma imagem sobre ambas as retinas e obter uma única imagem. Os movimentos vestibulares são movimentos de compensação que ocorrem quando a cabeça é alvo de movimentos bruscos (LUEGI, 2006).

Entre as sacadas, os nossos olhos realizam pequenas pausas (também denominadas de fixações), permanecendo praticamente imóveis. Esta imobilidade só não é total porque ocorrem, durante as fixações, pequenos movimentos imperceptíveis e involuntários. A esses movimentos imperceptíveis e contínuos podem corresponder: pequenos deslizes numa ou noutra direção; microssacadas realizadas para corrigir os pequenos deslizes e tremores constantes. Estes movimentos são considerados ruído nos sistemas de registro dos movimentos dos olhos (LUEGI, 2006).

(23)

2.6.3 Percepção Visual na Leitura

As sacadas são movimentos muito rápidos, realizados da esquerda para a direita (na leitura das escritas que se realizam da esquerda para a direita) e de cima para baixo, duram em média 30 a 50 milésimos de segundo (na leitura), sendo esse tipo de movimento, o principal para definir se o indivíduo está lendo corretamente ou não. Uma vez que a acuidade visual só é boa na fóvea, é necessário que os olhos se movam com bastante frequência para captar novas informações, fazendo-as caírem na fóvea. Durante as sacadas não se adquire informação nova e nem sequer percebe-se qualquer alteração que seja realizada durante estes movimentos (MATIN, 1974).

Cerca de 15% dos movimentos sacádicos durante a leitura são movimentos regressivos, ou seja, partem da direita para a esquerda, para regiões anteriores de texto, na mesma linha ou em algumas linhas acima. Estes movimentos acontecem, sobretudo, quando se registram dificuldades no processamento da informação, por haver informação em falta, ou por dificuldades de interpretação da estrutura (LUEGI, 2006).

As fixações, ou as pausas entre as sacadas, duram, em média, na leitura, 250 milisegundos. No entanto, este valor varia segundo a tarefa que se realiza e apresenta também grandes variações inter e intra-individuais. São estas variações que tornam as fixações um elemento importante na investigação dos processos cognitivos. O tempo de fixação de uma palavra nem sempre está unicamente relacionado com o seu tempo de processamento, mas, sim, com o tempo de processamento da palavra anterior, quando inserida num contexto. Este efeito é designado de spillover (LUEGI, 2006). A Figura 3 mostra um exemplo de movimentos sacádicos(linhas) e fixacionais (círculos).

(24)

2.6.4 A Dislexia

De acordo com a literatura, existem fatores visuais específicos na dislexia. Stein (2001) descreve a Teoria Magnocelular, na qual os indivíduos disléxicos têm controle motor ocular deficiente, gerando movimentos sacádicos e de fixação fora do padrão e em maior número do que em grupos não-disléxicos. Durante a leitura monitorada de disléxicos, percebeu-se que tal deficiência no movimento faz com que as letras lidas apareçam movimentando-se e se sobrepondo umas as outras.

De acordo com Fischer (2000), na Teoria Magnocelular, crianças com problemas de leitura apresentam, em sua maioria, uma dominância ocular instável em associação a uma percepção de letras imprecisa e pobre, além de instabilidade de fixação ocular e pobre controle dos movimentos vergenciais dos olhos, completamente necessários para a leitura. Isto significa que em adição à pobre habilidade de localizar com precisão os pequenos alvos visuais (tais como as letras de uma palavra) leitores disléxicos têm uma grande proporção de erros de posição das letras quando tentam soletrar em comparação a sujeitos com leitura normal.

Trabalhos do Hospital de Olhos de Minas Gerais, relacionam a síndrome de Mears-Irlen, um distúrbio visual-perceptivo que faz com que os indivíduos enxerguem imagens distorcidas, tal causa está associada a uma deficiência no funcionamento do córtex visual primário. (GUIMARAES, 2008)

Lovegrove et al (1986) buscaram outra possibilidade, qual seja, de que as crianças disléxicas tenham deficiências de nível baixo do sistema visual transitório (LOVEGROVE et al, 1986).

Essas dificuldades levariam as crianças a experimentar embaçamento do texto impresso e, por isso, afetariam a leitura, conforme mostra a Figura 4.

Figura 4 - Leitura feita por disléxico (LOVEGROVE et al, 1986)

A teoria de Déficit Cerebelar apresenta o problema da leitura do indivíduo não como uma deficiência do movimento ocular, mas sim na codificação da palavra durante

(25)

a leitura, tendo como origem anormalidades no funcionamento lateral da parte posterior do lobo do cerebelo (PENSIERO, 2013).

3

REVISÃO BIBLIOGRÁFICA

3.1 Imagem Digital

Segundo Gonzalez e Woods (2000), uma imagem pode ser definida como uma função f(x, y), onde o valor nas coordenadas espaciais x e y corresponde ao brilho (intensidade) da imagem nessa coordenada.

A única forma de se representar uma imagem em um computador é quando ela está digitalizada tanto no domínio espacial como no das amplitudes. Uma imagem digital é a representação numérica e discreta de um objeto como mostra a Figura 5, ou especificamente, é uma função quantificada e amostrada, de duas dimensões, geradas por meios ópticos. A menor unidade de uma imagem digital é denominada picture element (pixel). Um pixel é a representação numérica da luminosidade de um ponto da imagem (SILVA, 2005).

Figura 5 - Representação numérica de uma imagem ampliada de 10x10 pixels com 256 tons de cinza (SILVA, 2005)

3.2 Sistemas de Análise de Imagem

Os elementos de um sistema de processamento de imagens de uso genérico são mostrados na Figura 6.

(26)

Figura 6 - Elementos de um sistema de rastreamento de imagem.

Este diagrama representa desde sistemas de baixo custo até sofisticadas estações de trabalho utilizadas em aplicações que envolvem intenso uso de imagens. As principais operações que o compõe são: aquisição, armazenamento, processamento e exibição. (MARQUES, 1999).

3.2.1 Aquisição

A etapa de aquisição tem como função converter uma imagem em uma representação numérica adequada para o processamento digital subsequente. Este bloco compreende dois elementos principais. O primeiro é um dispositivo físico sensível a uma faixa de energia no espectro eletromagnético (como raios-X, ultravioleta, espectro visível ou raios infravermelhos), que produz na saída um sinal elétrico proporcional ao nível de energia detectado. O segundo, o digitalizador, que converte o sinal elétrico analógico em informação digital. Um módulo de aquisição de imagens é normalmente conhecido pelo nome de frame grabber. (MARQUES, 1999).

3.2.2 Armazenamento

O armazenamento de imagens digitais pode ser dividido em três categorias: armazenamento de curta duração de uma imagem – enquanto ela é utilizada nas várias etapas do processamento; armazenamento de massa para operações de recuperação de imagens relativamente rápidas, e por último, arquivamento de imagens, para recuperação futura quando isto se fizer necessário. (MARQUES, 1999).

(27)

3.2.3 Processamento

A área de processamento de imagens digitais possui dois objetivos: “melhoria da informação visual para interpretação humana e o processamento de dados das cenas para percepção automática através de máquinas” (GONZALEZ; WOODS, 2000).

O processamento de imagens tem seu campo de aplicação nas imagens digitais, ou seja, imagens discretizadas em função de coordenadas bidimensionais: 𝑓(𝑥, 𝑦), que armazenam os valores correspondentes ao brilho, em imagens em tons de cinza, ou o valor correspondente à cor naquela posição, em imagens coloridas. (MARQUES, 1999).

O processamento de imagens é composto por três níveis de processamento, como exibido na Figura 7 (GONZALEZ; WOODS, 2000). Nem todos os passos descritos precisam ser executados, dependendo do domínio de aplicação.

Figura 7 - Níveis de Processamento (GONZALES; WOODS, 2000)

A etapa de processamento de baixo nível, inclui a aquisição de imagem (já citada no item 3.2.1) e a fase de pré-processamento que corresponde à preparação dos dados para o processo seguinte. O pré-processamento contribui com 75 a 90% do sucesso de um projeto que envolve processamento de imagens para classificação enquanto a não realização desta fase pode ser 100% responsável pelo insucesso do projeto (YE, 2003).

Isso ocorre porque a maioria das técnicas de classificação requer que os dados estejam consolidados em uma única base, limpos, consistentes e completos. Porém, esta

(28)

situação raramente ocorre em bases de dados reais. Desta forma, os dados devem ser pré-processados para melhorar a eficiência dos algoritmos de aprendizado e, consequentemente, de todo o processo de classificação. A forma de preparação dos dados, assim como as decisões tomadas nesta etapa são críticas para a qualidade dos resultados obtidos nas fases subsequentes (MYATT, 2006).

A etapa de processamento de nível intermediário consiste em segmentação, representação e descrição. A segmentação é a ação que visa dividir uma imagem nas suas partes ou nos objetos constituintes dessa imagem (GONZALEZ; WOODS, 2000).

Estas novas porções da imagem contêm as características de interesse ressaltadas das demais, facilitando um processo de reconhecimento, análise ou interpretação (CONCI et al, 2008).

O processo de segmentação, portanto, tem como objeto obter uma determinada região da imagem que possua características relevantes maximizadas para o domínio de aplicação. O ato de segmentar é feito buscando separar da imagem original regiões que possuam características em comum. A segmentação pode ser implementada visando separação de cores, texturas, pontos, linhas, descontinuidades, bordas, entre outros (GONZALEZ; WOODS, 2000).

A representação e descrição é a conversão dos dados brutos de pixels (advindas da fase de segmentação) para uma forma mais otimizada para o processo subsequente. O último estágio envolve reconhecimento e interpretação. Reconhecimento é o processo que atribui um rótulo a um objeto, baseado na informação fornecida pelo seu descritor. A interpretação envolve a atribuição de significado a um conjunto de objetos reconhecidos (SILVA, 2011).

O processamento é representado por várias técnicas que manipulam a imagem para obter um resultado mais preciso e de maior qualidade sobre a imagem alvo. Tais técnicas com seus respectivos resultados são apresentadas na Figura 8:

(29)

Figura 8 - Técnicas de processamento de imagem 3.2.3.1 Suavização (Smooth)

A suavização de pixels é uma técnica de compressão de imagens baseada em operações por vizinhança, em que os valores da imagem resultante são obtidos pela média de uma região da imagem original (MARQUES, 1999).

3.2.3.2 Detecção de Bordas

As bordas existentes em uma imagem são resultantes de mudanças (bruscas ou não) em alguma propriedade física ou espacial encontradas em superfícies iluminadas (LAGEMANN, 2006).

Pode-se utilizar a detecção de bordas tanto no fim como na fase anterior a segmentação, como medida para isolar regiões da imagem. Isso tudo depende da necessidade de uso, mas ressalta-se que o processo de detecção de bordas sempre deve ser necessariamente confiável e eficiente para que se obtenham os resultados desejados (LAGEMANN, 2006).

3.2.3.3 Conversão RGB em Escala de Cinza

Algumas operações de processamento de imagens são facilitadas quando os pixels possuem apenas uma dimensão, ou seja, a imagem é em escala de cinza ou binária (FERRAREZI, 2010).

(30)

3.2.3.4 Binarização (Thresholding)

O processo de binarização (ou thresholding) tem por objetivo diminuir a quantidade de dados contidos na imagem atuando como um filtro. Assim, os pixels com intensidade inferior a um limiar serão ignorados e considerados como 0 (BATISTA, 2012).

3.2.3.5 Região de Interesse

Um conceito importante em processamento de imagens é a Região de Interesse. Entende-se como Região de Interesse (ROI - "Region Of Interest" ou AOI - "Area Of Interest") a região definida automaticamente a partir de parâmetros obtidos na própria imagem (ou por um usuário) onde o processamento estará totalmente concentrado (ALBUQUERQUE, 2003).

3.2.3.6 Transformada de Hough

A Transformada Hough é um método matemático proposto por Paul Hough em 1962, patenteada pela IBM e reformulada computacionalmente por Duda e Hart em 1972 (DUDA; HART, 1972) .

A transformada é utilizada desde 1995 como um método de processamento digital de imagens. É um método poderoso na detecção de linhas e círculos a partir de imagens cujas bordas foram previamente realçadas (SAD, 2010).

A transformada é dividida em dois tipos, a Clássica, que é utilizada para determinar formas geométricas regulares como retas, quadrados, retângulos, círculos, etc., e a Generalizada, que pode determinar formas bidimensionais de qualquer tamanho e orientação, porém necessita de um alto custo de processamento, sendo utilizada somente em casos onde a transformada clássica é inviável e em casos em que se necessita de um resultado melhor qualificado e sem prioridade de tempo. É bastante utilizada em análise anatômica de imagens médicas (SAD, 2010).

A principal vantagem da Transformada de Hough é que esta apresenta uma certa tolerância a ruídos. Os ruídos não influenciam incorretamente na localização das formas geométricas. O único problema é que ruídos na imagem podem causar um certo gasto de processamento desnecessário, pois a transformada realiza uma varredura em todos os pontos da imagem (MORETTO, 2004).

(31)

A transformada é o processo principal para o funcionamento do protótipo da localização da região dos olhos, pois é utilizada para encontrar a borda da íris. Através dela é possível desenvolver um estimador da direção do olhar sem o uso de meios intrusivos ou mesmo com uma simples Webcam, como no trabalho de Young (YOUNG et al, 1995).

3.2.3.7 Haar Features

O método proposto por Viola e Jones (2001) é uma adaptação sobre a proposta de Papageorgiou (1998), no qual o processamento deveria se dar sobre um conjunto alternativo de características, conhecidas como features, ao invés de explorar as intensidades das imagens. Esse método tinha como base a wavelet de Haar, e por isso ficou conhecido como “Haar-like features” (ou, em tradução livre “método de características à Haar”). A principal vantagem da detecção de imagens baseada em features é a capacidade de atuar sobre domínios de conhecimento que são difíceis de representar usando um conjunto finito de treinamento. Outra vantagem comum é a maior velocidade sobre os sistemas baseados em pixels (VIOLA, 2001).

O Haar-like features considera regiões retangulares adjacentes contidas em uma “janela de detecção”, soma seus pixels, e então subtrai os somatórios de cada região. Esta diferença é utilizada para categorizar uma região segundo as bases da função de Haar. A representação dos pixels em forma de somatório de uma região retangular foi chamada por Viola e Jones de representação de “integrante da imagem” (BATISTA, 2012).

Viola e Jones(2001) definem três tipos de features: com 2-retângulos, com 3-retângulos e com 4-3-retângulos. As representações e descrições podem ser vistas na Figura 9. Usando as integrantes da imagem, qualquer soma retangular pode ser computada em quatro referências de matriz. A diferença entre duas somas retangulares pode ser computada em oito referências. Uma vez que features de 2-retângulos envolvem somas retangulares adjacentes, elas podem ser computadas em seis referências de matriz. Features de 3-retângulos, em oito referências, e nove referências para as de 4- retângulos.

(32)

No entanto, a abordagem de classificadores baseados em features, obtém tempo de processamento próximo a 0,7 segundos para a detecção de objetos, isto é, o mesmo que a maioria das demais abordagens. De forma que, a grande vantagem do método de Viola e Jones é o uso do AdaBoost, que é um algoritmo composto de um conjunto de classificadores, partindo de muitos classificadores simples (ou fracos) até poucos mais complexos. Nesse ponto, “o conceito chave é que classificadores robustos, menores e, portanto mais eficientes, podem ser construídos para rejeitar muitas das sub-janelas negativas enquanto detecta quase todas as instâncias possíveis positivas” (VIOLA; JONES, 2001).

A arquitetura do processo de detecção é a de uma árvore de decisão degenerada, e recebe o nome de “cascata”. Um resultado positivo do primeiro classificador dispara a avaliação por um segundo classificador que também foi ajustado para obter altas taxas de detecção. O resultado positivo também do segundo classificador dispara um terceiro, e assim sucessivamente. Caso ocorra um resultado negativo em qualquer etapa do processo, a sub-janela é imediatamente rejeitada por todos os demais estágios. Os estágios na cascata são construídos por classificadores treinados usando AdaBoost e então o limiar é ajustado para minimizar falsos negativos (BATISTA, 2012).

Com a detecção em cascata os experimentos publicados por Viola e Jones(2001) obtiveram tempo de detecção frontal de faces de 0,067 segundos, correspondente a uma possível análise de imagens sequenciais a 15 quadros por segundo. Estes resultados habilitam esse método para o processamento em tempo real.

3.2.4 Transmissão

Imagens digitalizadas podem ser transmitidas à distância utilizando redes de computadores e protocolos de comunicação já existentes. Em casos onde há uma enorme quantidade de dados a serem enviados, o uso de técnicas de compressão de imagens pode ser adequado (MARQUES, 1999).

3.2.5 Exibição

Esta fase é caracterizada pelos dispositivos de saída que servem para visualizar as imagens. As imagens podem ser mostradas em um monitor de vídeo ou impressas através de uma impressora ou plotter (MARQUES, 1999).

(33)

3.4 Rastreamento do Olhar

O termo “rastreamento do olhar” é uma tradução do termo em inglês eye tracking, que também pode ser traduzido como “rastreamento do olho” ou “seguimento do olho”, entretanto a simples tradução não dá compreensão do seu real significado. A Tobii Technology, empresa líder neste campo de pesquisa, apresenta a seguinte definição dessas tecnologias: o rastreamento do olhar é um termo geral para técnicas de medição do ponto observado – onde você está olhando – ou para determinar a posição do olho em relação à cabeça (GIANNOTTO, 2009).

Em outras palavras, o termo eye tracking apresenta dois significados distintos. Ele pode ser usado para representar técnicas que são capazes de determinar o ponto que está sendo visto pelo usuário, ou seja, onde o usuário está olhando e, por outro lado, este termo também pode ser usado para designar apenas as técnicas capazes de localizar a posição do olho do usuário em relação a sua cabeça.

A maioria dos sistemas eye tracking relatados na literatura é baseada no uso de câmeras de vídeo, mas ainda podem ser encontradas diversas implementações que utilizam lentes de contato especiais ou eletrodos medindo potenciais elétricos na superfície na pele.

3.4.1 História dos Sensores

A ideia de rastrear o movimento dos olhos surgiu em 1800. Os estudos eram feitos a partir de observações diretas. Na década de 1930, Miles Tinker e sua equipe desenvolveram as técnicas fotográficas para estudar o movimento ocular na leitura. Eles variavam o tipo, o tamanho de impressão, layout da página e estudaram os efeitos resultantes da velocidade de leitura e padrões de movimentos dos olhos (TINKER, 1963). Em 1947, após a Segunda Guerra Mundial, o grupo de Fitts, Jones e Milton (1950) avançou com uma das medidas da direção do olhar. A técnica deles consistia principalmente numa técnica médica que permitia o registro dos movimentos do globo ocular usando uma série de elétrodos posicionados ao redor do olho. A técnica exigia que a cabeça do espectador ficasse imobilizada durante o rastreamento do olho, munindo-se de uma variedade de dispositivos que prejudicavam o conforto do espectador como mostra a Figura 10.

(34)

Figura 10 - Sistemas eye tracking que exigem imobilização (FERREIRA, 2009). Por volta de 1948, Hartridge e Thompson surgiram com uma grande inovação do eye tracking, que foi a invenção de um primeiro sistema montado na cabeça. Esta técnica foi amplamente utilizada servindo como ponto de partida para libertar os participantes dos estudos das restrições apertadas do movimento da cabeça (MACKWORTH, 1958).

Com o avanço da tecnologia nas décadas de 1960, 70 e 80, persistiu o interesse pelo eye tracking. Com a proliferação dos computadores pessoais foram repensados novos designs de interfaces e potencializou-se a relação humana com o computador. Esta década marcou também o início do monitoramento do olho em tempo real como meio de interação humano-computador como retrata a Figura 11 (BATISTA, 2012).

Figura 11 - Sistemas eye tracking em tempo real (FERREIRA, 2009).

Na década de 2000 o eye tracking já possuía, incorporados, sistemas computacionais altamente robustos capazes de calcular, já com mais precisão, a posição dos componentes dos olhos como íris e pupila fazendo com que o hardware fosse resumido a um monitor com um sensor de imagem infravermelho capaz de gerar padrões

(35)

de reflexão sobre as córneas dos olhos do usuário como retrata a Figura 12 (BATISTA, 2012).

Figura 12 - Eye tracking modernos (FERREIRA, 2009)

3.4.2 Tipos de Sensores

Dependendo do sensor de captura de imagens utilizado, os sistemas para analisar os movimentos dos olhos podem ser classificados como intrusivos ou não-intrusivos. Os sistemas intrusivos empregam dispositivos especiais como óculos e eletrodos para aquisição das imagens dos olhos (Figura 14b). Os sistemas não-intrusivos empregam câmeras nesse processo de aquisição como mostra a Figura 12 (MORETTO, 2004).

Segundo Moretto (2004), as técnicas intrusivas possuem uma taxa de acerto da localização dos olhos maior que os sistemas não-intrusivos, uma vez que a localização do olho é facilitada. Entretanto, essas técnicas são de difícil acesso por possuírem custo elevado, inviabilizando seu uso.

3.5 Métodos de Rastreio

3.5.1 Lentes de Contato Especiais Scleral Search Coil

O método Scleral Search Coil utiliza uma espiral de fio anexada à lente. Inicialmente proposta em 1963, se baseia na indução magnética de uma pequena bobina metálica (Figura 13A), instalada com ferramentas específicas (Figura 13C) em uma lente flexível de silicone com um fio fino que conecta a bobina a um dispositivo de medida. Esta lente é posicionada sobre a esclera (parte branca do olho) conforme mostra a Figura 13B, se posicionando de forma concêntrica com a íris (parte colorida do olho), e com a

(36)

pupila (parte escura no centro do olho). Em seguida, é gerado um campo magnético alternado na região ao redor da cabeça do observador, e a tensão induzida na bobina é usada no cálculo da posição do olho (GIANNOTTO, 2009).

Figura 13 - a) Pequena bobina anexada a uma lente de contato; b) lente de contato posicionada sobre o olho humano; c) ferramentas de instalação da lente. (SKALAR,

2012)

3.5.2 Eletro-oculografia (EOG)

A técnica consiste na instalação de diversos eletrodos de superfície na pele da região próxima ao olho, como mostrado na Figura 14B, tal técnica é capaz de registrar uma diferença de potencial da ordem de alguns micro-volts. Ao movimentar os olhos horizontalmente ou verticalmente, este potencial elétrico medido sofre pequenas variações que são registradas pelo equipamento (Figura 14A) e convertidas em graus representando os movimentos e a posição do olho em relação à cabeça do usuário (NETTO, 2010).

Figura 14 - a) Unidade de gravação eletro-fisiológico; b) Usuária de um eye-tracking baseado em eletro-oculografia; c) diversos tipos de eletrodo. (METROVISION, 2012)

(37)

3.5.3 Vídeo-oculografia (VOG)

A Vídeo-oculografia (VOG) é uma técnica não invasiva baseada na utilização de câmeras de vídeo que registram imagens dos próprios usuários e são usadas nos processos de detecção da posição dos olhos e de seus movimentos. A VOG utiliza câmeras de vídeo comuns que operam no espectro visível, ou seja, captam luz composta por frequências contidas na mesma porção do espectro eletromagnético que pode ser captada pelo olho humano (BATISTA, 2012).

Morimoto e Mimica (2005) explicam que a VOG normalmente utiliza alguma propriedade ou característica do olho humano que possa ser detectada por meio do processamento das imagens de uma câmera de vídeo ou de outro dispositivo ótico. Entre as diversas características existentes encontram-se a cor dos olhos, sua forma, e até sua posição. A grande maioria das implementações usando VOG utiliza a detecção do limbo ou a detecção da pupila.

O limbo é a região limite entre a esclera, (parte branca do olho), e a córnea, membrana transparente que cobre a íris – parte colorida do olho. A detecção do limbo sofre com o fato de que parte desta região permanece constantemente oculta pelas pálpebras, o que pode resultar com perdas de precisão no eixo vertical. A pupila, por outro lado, encontra-se sempre visível, mas sua detecção costuma ser mais difícil devido ao baixo contraste entre a pupila e íris, região vizinha (MORIMOTO; MIMICA, 2005).

3.5.4 Vídeo-oculografia baseada no centro da pupila/reflexão na córnea (PC/CR) Desenvolvido no final da década de 1960, utiliza processamento de imagens para detecção da pupila e de feixes de luz refletidos nos olhos. Como ocorre com a VOG tradicional, este método utiliza câmeras de vídeo para obtenção de imagens do usuário, mas diferente de sua técnica irmã, a PC/CR trabalha com espectro de luz infravermelho que não é visível ao olho humano (MORIMOTO et al, 2000).

Sistemas eye tracking baseados no PC/CR utilizam LEDs como fontes de luz infravermelha para estabilizar a iluminação do rosto do usuário e aumentar o contraste entre a pupila e a íris, facilitando assim sua localização. Por não ser visível, a luz infravermelha não distrai o usuário, nem causa desconforto (MORIMOTO et al, 2000).

(38)

Existem duas técnicas que são usadas para aumentar o contraste da pupila nas imagens, dependendo do posicionamento das fontes de luz, que são conhecidas como efeito pupila-brilhante e efeito pupila-escura (QUEIROZ, 2011).

A pupila é um orifício na íris, permitindo que a luz penetre no interior do olho, quando se instalam fontes de luz próximas ao eixo ótico de uma câmera de vídeo (próximas a sua lente) direcionada para a face usuário, uma parte da luz emitida é refletida no fundo do olho e volta diretamente para a câmera produzindo uma imagem clara da pupila, o que dá origem ao efeito pupila brilhante (Figura 15B), também conhecido como o efeito do olho vermelho visto em fotografias com flash (MORIMOTO et al, 2000).

Em contrapartida, ao posicionar-se a fonte de luz infravermelha longe do eixo ótico da câmera, a luz refletida no fundo do olho não retorna na direção da câmera, sendo perdida. Em seu lugar, o que se obtém é uma imagem com a pupila completamente escura (Figura 15A) e com uma grande diferença no contraste entre a pupila e a íris (MORIMOTO et al, 2000).

Figura 15 - a) Efeito pupila-escura; b) Efeito pupila-brilhante. (MORIMOTO et al, 2000)

3.6 Análise Comparativa dos Métodos

O método Scleral Search Coil, além de ser altamente preciso, é capaz de obter uma alta taxa de dados, sendo aplicado para estudo de tremores, escorregamentos e outros tipos de movimentos de olhos que por serem muito rápidos não costumam ser verificados através de outras técnicas (GIANNOTTO, 2009).

Apesar das grandes vantagens desta técnica, os procedimentos de instalação e remoção das lentes no olho humano e o desconforto causado pelo uso das lentes

(39)

impediram sua utilização, permanecendo restrita à medicina e ao estudo de animais (COLLEWIJN, 1977).

O método do EOG possui um custo menor que a Scleral Search Coil e apresenta mais simplicidade no seu uso, além de ser menos invasiva. Porém, os dados capturados só são válidos se a cabeça do usuário estiver imóvel, pois o EOG não fornece recursos que leva em consideração a posição da cabeça.

A técnica do VOG apresenta como principal característica a possibilidade de além de detectar a pupila, poder detectar o limbo, porém quando aplicado sob espectro visível, traz resultados imprecisos devido às variações da iluminação do ambiente (LUEGI, 2006).

Quando o VOG é baseado no centro da pupila/reflexão na córnea, trabalha-se com espectro infravermelho, facilitando a localização da posição da pupila, trazendo resultados mais precisos (GIANNOTTO, 2009).

Com base nessas informações foi elaborado um esquema comparativo entre os métodos explicitados na Tabela 3.

Tabela 3 - Tabela Comparativa dos Métodos

Método Taxa de Acerto Grau de

Intrusão

Mobilidade Custo Usuário

imóvel

Scleral Search Coil (95-99%) Alto Baixa Alto Não

Eletro-oculografia (90-95%) Média Baixa Médio Sim Video-oculografia (90-95%) Ausente Alta Baixo Não

4 METODOLOGIA

O projeto selecionou o método de rastreio Vídeo Oculografia baseado no centro da pupila, por se tratar de um método não intrusivo, baixo custo e alta mobilidade. Para isso foi necessário realizar o desenvolvimento de elementos que compõem o sistema eye tracking citado no item 3.2 (Sistemas de Análise de Imagem). O processo foi iniciado com a definição dos critérios para seleção do hardware do sistema e, em seguida, na arquitetura de software (linguagens de desenvolvimento e suas bibliotecas), para assim definir o escopo dos requisitos do software desenvolvido, dentre eles fazendo uso das técnicas estudadas no item 3.2.3

Referências

Documentos relacionados

[r]

Então são coisas que a gente vai fazendo, mas vai conversando também, sobre a importância, a gente sempre tem conversas com o grupo, quando a gente sempre faz

Neste capítulo foram descritas: a composição e a abrangência da Rede Estadual de Ensino do Estado do Rio de Janeiro; o Programa Estadual de Educação e em especial as

de professores, contudo, os resultados encontrados dão conta de que este aspecto constitui-se em preocupação para gestores de escola e da sede da SEduc/AM, em

De acordo com o Consed (2011), o cursista deve ter em mente os pressupostos básicos que sustentam a formulação do Progestão, tanto do ponto de vista do gerenciamento

Foram analisados a relação peso-comprimento e o fator de condição de Brycon opalinus, em três rios do Parque Estadual da Serra do Mar-Núcleo Santa Virgínia, Estado de São

libras ou pedagogia com especialização e proficiência em libras 40h 3 Imediato 0821FLET03 FLET Curso de Letras - Língua e Literatura Portuguesa. Estudos literários

Para Souza (2004, p 65), os micros e pequenos empresários negligenciam as atividades de planejamento e controle dos seus negócios, considerando-as como uma