• Nenhum resultado encontrado

8 Validação do Modelo

8.1 Aprendizagem Cross-Situacional de Palavras

8.2.1 Simulações do Experimento

Para simular os estímulos fornecidos para os participantes dos experimentos deYu e Smith

(2007), foram utilizadas 18 palavras de objetos encontrados em casa (bed, chair, bowl, fork, door, canister, clock, computer, desk, refrigerator, sofa, cooker, spoon, telephone, knife, armoire, cupe dresser). Além disso, 18 imagens de objetos referentes a cada uma das palavras foram obtidas a partir do Google Imagens®.

A Figura8.2ilustra os métodos utilizados em cada módulo, bem como a sequencia de passos de processamento do modelo completo. A representação percepções das palavras e das imagens foi construída pelo Módulo de Mapeamento Sensório-Perceptivo, de acordo com o esquema descrito no Capítulo4.

No Módulo de Representação foi utilizado o LARFDSSOM em lugar do SOM para gerar os codebooks, pois, conforme visto no Capítulo7, este se sai melhor no agrupamento dos dados de alta dimensionalidade, onde é provável que haja dimensões irrelevantes. Os mapas foram inicializados com apenas um nodo de saída posicionado de maneira aleatória.

Os mapas do Módulo de Representação foram treinados previamente, formando 28 agrupa- mentos no codebook da representação auditiva, e 37 agrupamentos no codebook da representação visual. O treinamento prévio destes mapas simula o conhecimento prévio que os indivíduos testados possuem da estrutura fonética de seu idioma nativo e dos elementos perceptivos básicos para o reconhecimento de imagens de objetos.

O Módulo de Contexto foi implementado com o ART2 com Contexto, conforme descrito no Capítulo6. E o Módulo de Associação foi implementado utilizando o LARFDSSOM, também inicializado com apenas um nodo de saída posicionado de maneira aleatória. Os parâmetros dos modelos são os mesmos exibidos na Tabela8.1.

Cada novo estímulo é decomposto em suas percepções pelo Módulo de Mapeamento Sensório-Perceptivo, e estas percepções são enviadas para o Módulo de Representação, que por

LARFDSSOM - Associação

B - Representação C - Contexto

LARFDSSOM - Palavras LARFDSSOM - Imagens

12 características por fonema

/k /or /f /ar /e /ch

4 fonemas descritor de 128 características (sift)

Detector de pontos de interesse Hessian Affine

chair fork

Representação fonética

ART2 com Contexto D - Associação

Níveis de atividade

A - Percepção ... ... ... ... ...

Figura 8.2 Ilustração das etapas de processamento executadas nos experimentos de associação. A - aquisição das percepções; B - composição da representação; C - criação e reconhecimento do contexto; e D - associação e reconhecimento dependente do contexto.

sua vez computa os histogramas das informações auditivas e visuais.

Os histogramas normalizados são então enviados para o Módulo de Contexto que, por sua vez, constrói o contexto atual e o associa com cada entrada nova, ou atualiza o contexto associado com entradas vistas anteriormente. Em seguida, as saídas do Módulo de Contexto, incluindo suas entradas, inalteradas, e o contexto associado ao protótipo vencedor, são fornecidas para o Módulo de Associação.

O Módulo de Associação, irá então criar nodos representando os novos estímulos recebidos ou atualizar os nodos previamente criados quando a informação armazenada no nodo vencedor for considerada suficientemente semelhante à informação de entrada. Cada nodo representa então um par de associação rótulo-referente além da informação do contexto no qual essa associação foi observada. A saída do Módulo de Associação é o nível de ativação do nodo vencedor.

Buscando fazer uma representação o mais fidedigna possível da maneira como os indivíduos recebem os estímulos, foi desenvolvido um procedimento para construir as entradas para o modelo. Uma vez que, nos experimentos cross-situacionais, os estímulos auditivos, ou seja,

as palavras, foram fornecidas em sequência, apenas uma vez em cada ensaio, foi criada uma representação auditiva única para cada ensaio, encadeando-se a representação da sequência de fonemas das palavras apresentadas.

Por exemplo, supondo que as quatro palavras do ensaio sejam bed, chair, bowl e fork, então é formada uma representação única da sequência de fonemas da frase “bed chair bowl fork”, ou seja, “/b e d t S e @ b @ U f O k/”. Por outro lado, os indivíduos podiam olhar para cada uma das imagens, observando-as individualmente. Além disso, já que não há correlação entre as imagens, elas fazem mais sentido quando observadas individualmente. Sendo assim, cada imagem foi representada de maneira individual. E então o estímulo de entrada completo (visual e auditivo) foi construído combinando o estímulo auditivo com cada um dos estímulos visuais.

Dessa forma, em cada ensaio da condição 2 x 2 foram fornecidas duas entradas para o modelo uma combinando o estímulo auditivo composto com a primeira imagem e outra combinando-o com a segunda imagem. De maneira análoga, em cada ensaio da condição 3 x 3 foram fornecidas três entradas para o modelo, e em cada ensaio da condição 4 x 4 foram fornecidos 4 entradas para o modelo, sempre combinado o estímulo auditivo com cada uma das imagens a serem apresentadas.

Após realizados todos os ensaios, o modelo foi testado de forma análoga ao que foi feito no experimento deYu e Smith(2007), ou seja, foi apresentada uma palavra e quatro figuras, sendo uma figura a correta e outras três sendo distraidores escolhidas aleatoriamente. Os estímulos para os testes foram construídos da mesma maneira que durante o treinamento, a única diferença é que aqui há apenas uma palavra, a qual foi combinada com cada uma das imagens dos objetos para formar as entradas de teste para o modelo. Para identificar qual dos quatro pares rótulo-referente o modelo considerou como sendo o correto, cada um deles foi apresentado como entrada para o modelo em sequência aleatória, e o nível de atividade do nodo vencedor no Módulo de Associação foi registrado. Então, o par que produziu o maior nível de atividade dentre os quatro, é o par considerado correto pelo modelo, pois é o que representa a associação mais forte, e portanto, um acerto é registrado para o modelo caso o par que produziu a maior ativação seja o que contém o objeto correto.

O modelo foi treinado e testado 38 vezes com inicializações aleatórias, representando os 38 indivíduos. Os resultados obtidos nas simulações são apresentados a seguir em comparação com os resultados apresentados porYu e Smith(2007).