• Nenhum resultado encontrado

universidade do vale do itajaí - IIS Windows Server

N/A
N/A
Protected

Academic year: 2023

Share "universidade do vale do itajaí - IIS Windows Server"

Copied!
88
0
0

Texto

Dentro deste contexto, o presente trabalho apresenta um estudo de caso sobre a utilização da metodologia DolphinSearch para recuperação de informação, que utiliza redes neurais artificiais para recuperar informações; levando em consideração o contexto em que a expressão está inserida. Após os testes realizados e tendo em conta as análises efetuadas, foram levantadas algumas questões que foram predominantes para a criação de uma ferramenta de recuperação de informação baseada em redes neurais artificiais: a função utilizada; o tamanho do conjunto de treinamento; e o próprio algoritmo de aprendizagem.

PROBLEMATIZAÇÃO

Formulação do Problema

Dentro das definições de ontologia e web semântica, existe uma metodologia para RI chamada DolphinSearch. Portanto, estudar a aplicação do RNA à RI torna-se interessante e abre uma grande variedade de linhas de pesquisa sobre o tema.

Solução Proposta

A ferramenta de recuperação de informação consiste em um banco de dados contendo um dicionário de cinco palavras e seu código numérico; pronomes; verbos e advérbios, também com seus respectivos códigos. O desempenho desta ferramenta serve como referência para a eficiência da arquitetura de Rede Neural Artificial utilizada (DolphinSearch) como metodologia de Recuperação de Informação.

OBJETIVOS

Objetivo Geral

Objetivos Específicos

METODOLOGIA

Com base nos pesos registrados na RNA, foram então determinados e implementados os requisitos da ferramenta de RI. Após a implementação da ferramenta, iniciou-se o processo de teste e validação da ferramenta, ou seja, qual a taxa de recuperação correta.

ESTRUTURA DO TRABALHO

Na análise dos mecanismos de RI existentes, foram estudados os conceitos de Recuperação de Informação e Modelos de Recuperação de Informação. Este capítulo aborda os conceitos de recuperação de informação, bem como os modelos Booleano, Vetorial, Probabilístico, Fuzzy e Booleano Estendido, descrevendo cada modelo.

RECUPERAÇÃO DE INFORMAÇÃO

  • Modelo Booleano
  • Modelo Vetorial
  • Modelo Probabilístico
  • Modelo Fuzzy
  • Modelo Booleano estendido

Ele também menciona que sua principal desvantagem é a impossibilidade de solicitar documentos resultantes de uma busca. Os termos são ocorrências únicas em documentos e o vetor de resultados de uma consulta é montado por meio de um cálculo de similaridade.

Figura 1. Representação do resultado de uma expressão booleana conjuntiva AND  Fonte: Adaptado de Ferneda (2003)
Figura 1. Representação do resultado de uma expressão booleana conjuntiva AND Fonte: Adaptado de Ferneda (2003)

METODOLOGIA DOLPHINSEARCH

Segundo Roitblat (2000), cada neurônio de entrada é projetado para responder à presença de uma palavra específica no texto de entrada. Como resultado, o texto é representado por um padrão de números positivos e zeros no vetor de entrada.

Figura 6. Exemplo de freqüência de um eco de um golfinho  Fonte: Adaptado de Roitblat (2000)
Figura 6. Exemplo de freqüência de um eco de um golfinho Fonte: Adaptado de Roitblat (2000)

REDES NEURAIS ARTIFICIAIS

  • Conceitos e Definições
  • Inteligência Artificial e Redes Neurais
  • Histórico
  • Perceptrons Multi-Camadas (MLP – Multi-Layer Perceptron)

Informação contextual: tratada naturalmente pela Rede Neural, pois cada neurônio da rede é potencialmente influenciado pela atividade de todos os outros neurônios da rede. Esses modelos assumem que o processamento da informação ocorre através da interação de um grande número de neurônios, com cada neurônio enviando sinais excitatórios e inibitórios para outros neurônios da rede. O aprendizado de retropropagação consiste em duas etapas através de diferentes camadas da rede: um passo à frente, “propagação”, e um passo para trás, “retropropagação” (HAYKIN, 1999).

Especificamente, a resposta real da rede é subtraída de uma resposta desejada (alvo) para produzir um sinal de erro. De acordo com Haykin (1999), um sinal de erro se origina em um neurônio na saída da rede e se propaga para trás camada por camada. É chamado de sinal de erro porque seu cálculo por cada neurônio da rede envolve uma função que de alguma forma depende do erro.

O cálculo de uma estimativa do vetor gradiente, que é necessário para a retropropagação através da rede. Função de ativação: um perceptron multicamadas treinado com um algoritmo de retropropagação pode aprender mais rápido quando a função de ativação sigmóide incorporada no modelo de neurônios da rede é antissimétrica do que quando é assimétrica.

Figura 9. Grafo arquitetural de um perceptron de múltiplas camadas com duas camadas ocultas  Fonte: Adaptado de Haykin (1999)
Figura 9. Grafo arquitetural de um perceptron de múltiplas camadas com duas camadas ocultas Fonte: Adaptado de Haykin (1999)

ANÁLISE DA METODOLOGIA DOLPHINSEARCH

Este capítulo tem como objetivo descrever o desenvolvimento do projeto e está estruturado em seções onde cada parte do projeto é descrita. Nas duas primeiras seções deste capítulo há uma análise da metodologia DolphinSearch e uma análise das variáveis ​​de entrada e saída da RNA, que trata da seleção do conjunto de palavras a serem utilizadas e da organização dos textos referentes a cada palavra. A próxima seção detalha a implementação da RNA, além das especificações para a criação do conjunto de treinamento da RNA, o treinamento e os testes realizados com ela.

Este capítulo também discute a implementação da ferramenta IR e a utilização dos pesos definidos pela Rede Neural Artificial na ferramenta de Recuperação de Informação.

ANÁLISE DAS VARIÁVEIS DE ENTRADA E DE SAÍDA DA REDE

Estabelecimento do grupo de palavras a serem utilizadas

Para iniciar a fase de implementação da ferramenta foram necessárias palavras da língua portuguesa com duplo sentido. Porém, como a gama de palavras da língua portuguesa é muito extensa, o que inviabilizaria o desenvolvimento do projeto, optou-se por utilizar apenas cinco palavras com duplo sentido para compor o dicionário protótipo. Mangueira: Pode ser uma árvore frutífera ou uma mangueira de água, por exemplo uma mangueira de jardim, mangueira de incêndio; Tomada elétrica: Pode ser uma tomada elétrica ou uma conquista, por exemplo os índios tomaram (conquistaram) o forte.

Com as palavras definidas, foi criada uma matriz com dez linhas e três colunas (10 x 3) contendo um identificador para a palavra, as palavras escolhidas e na terceira coluna suas palavras. O próximo passo foi criar uma matriz de cento e cinquenta linhas por duas colunas (150 x 2), contendo a palavra (anterior ou seguinte) e seu respectivo identificador. Após a definição das palavras, procedeu-se à organização dos textos que se referem a cada palavra, o que é explicado na próxima subseção.

Organização dos textos referentes a cada palavra

Após encontrar as palavras, foi criada uma matriz com alguns pronomes da língua portuguesa como "de, do, o, a" e outros, pois apenas esses pronomes antes ou depois de cada palavra não seriam suficientes para entender o significado da palavra em questão.. Portanto, ao identificá-los antes ou depois de cada palavra, passaram para a palavra anterior ou seguinte, conforme mostra a Figura 12. Na primeira coluna estão os identificadores de cada pronome, e na segunda coluna estão os pronomes encontrado no texto.

Também foi criada uma matriz com os verbos de ligação da língua portuguesa, a saber: ser, estar, parecer, ficar e continuar. Esta matriz contém os cinco verbos de ligação e todas as suas flexões verbais, em todos os tempos verbais. O próximo passo foi criar uma matriz de cento e cinquenta linhas em duas colunas (150 x 2), sendo que a primeira coluna continha um identificador para a palavra e a segunda coluna continha as palavras (anterior ou seguinte). selecionados nos textos.

IMPLEMENTAÇÃO DA REDE NEURAL ARTIFICIAL

Criação do conjunto de treinamento da Rede Neural Artificial

Após definir todas as palavras e criar as matrizes (pronomes de ligação, verbos), foi criada uma matriz com noventa e nove linhas e três colunas (99 x 3), contendo os identificadores das palavras anteriores, da palavra principal e os identificadores das palavras anteriores. palavras anteriores. palavras a seguir, que seriam usadas como dados de entrada para o treinamento da RNA. Durante o desenvolvimento do algoritmo de treinamento, notou-se que, para um melhor manuseio dos identificadores e um resultado mais próximo do esperado, os valores das matrizes de entrada e saída esperada deveriam ser normalizados, tornando os valores menores. Em seguida, o código da palavra anterior à palavra principal da expressão, o código da palavra principal e o código da palavra posterior à palavra principal são gerados por meio de um dicionário de palavras;

É criada uma matriz com 3 (três) colunas por n linhas (3 x n), onde as três colunas representam os códigos das palavras anteriores, principais e subsequentes, e as linhas representam o número de vezes que a palavra principal foi encontrada em os documentos do banco de dados;. O Apêndice I tabula todos os resultados obtidos para os noventa e nove pares de entradas. Para saber se a convergência da rede neural artificial foi satisfatória, separou-se um conjunto de quinze pares de entradas dos noventa e nove.

Com os quinze pares de entradas selecionados, o mesmo programa utilizado para treinar a rede foi utilizado para executar os testes. Após classificar a palavra principal da expressão, o sistema retorna os documentos encontrados relacionados ao significado da palavra.

Figura 14. Fluxograma da fase de treinamento do protótipo
Figura 14. Fluxograma da fase de treinamento do protótipo

Utilização dos pesos estabelecidos pela Rede Neural Artificial na

ANÁLISE DOS RESULTADOS OBTIDOS PELA FERRAMENTA

DIAGRAMAS

A ideia original deste trabalho foi construir uma ferramenta de recuperação de informação focada na língua portuguesa e que utilizasse as técnicas da metodologia DolphinSearch para realizar a recuperação. Porém, ao concluir a primeira fase (TCC I), percebeu-se que o projeto seria muito extenso e que não haveria tempo suficiente para concluí-lo. Portanto, optou-se por desenvolver um estudo de caso sobre a utilização da metodologia DolphinSearch para recuperação de dados.informação. Devido ao atraso na convergência da RNA, concluiu-se que a função de ativação utilizada, neste caso uma função linear, não era a ideal para palavras em português, pois o DolphinSearch foi desenvolvido para a língua inglesa.

As palavras utilizadas no projeto também foram definidas, e após vários testes percebeu-se que o número de palavras utilizadas talvez fosse muito pequeno, pois o universo de palavras da língua portuguesa é muito grande, ou seja, o tamanho do conjunto de treinamento, tanto com relação às palavras selecionadas e com relação ao número de documentos, foi muito pequeno. O ideal seria selecionar cerca de mil palavras da língua portuguesa que tenham duplo sentido, e pelo menos cerca de trezentos documentos relacionados a cada significado das palavras. Sugere-se também a utilização de um algoritmo de aprendizagem diferente, pois o algoritmo de retropropagação pode não ser o mais adequado para palavras em português.

Dissertação (Mestrado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Santa Catarina, Florianópolis, 1995. Disponível em: .

Figura 17. Diagrama de seqüência do sistema.
Figura 17. Diagrama de seqüência do sistema.

MATRIZ DE PRONOMES

MATRIZ DE VERBOS DE LIGAÇÃO

MATRIZ DE PALAVRAS

MATRIZES DE ENTRADA E SAÍDA ESPERADA

MATRIZES DE ENTRADA E SAÍDA ESPERADA NORMALIZADAS

These models have now been applied to word meaning recognition in free text. They are members of the order Cetacea, a group that includes whales, porpoises and related marine mammals. With the blow hole on the top of the head and the extension of the skull and lower jaw, the cetacean can.

All odontocetes that have been studied produce another type of sound that they use as biological sonar to observe objects in the water. His method used feedback (a perceptron learning rule) to change the strength of connections between neurons. One of the earliest problems to which neural networks were applied in this new era was the task of imitating dolphin echolocation.

In many cases, the parts of the solution must be combined non-linearly to solve the problem. Schematic speech spectrograms illustrating the first and second formants of the syllables BA and DA.

Figure 1. A sketch of the perceptron formal neuron.  The input retina (the  large square) receives analog inputs from the world and transmits them to  the threshold input units (the small squares)  These input units then connect  to the sum and threshold u
Figure 1. A sketch of the perceptron formal neuron. The input retina (the large square) receives analog inputs from the world and transmits them to the threshold input units (the small squares) These input units then connect to the sum and threshold u

Imagem

Figura 1. Representação do resultado de uma expressão booleana conjuntiva AND  Fonte: Adaptado de Ferneda (2003)
Figura 4. Resultado de uma busca booleana com operador NOT  Fonte: Adaptado de Ferneda (2003)
Figura 2. Representação de uma busca booleana disjuntiva OR  Fonte: Adaptado de Ferneda (2003)
Figura 3. Resultado de uma busca negativa NOT  Fonte: Adaptado de Ferneda (2003).
+7

Referências

Documentos relacionados

Exemplo NoReferenciaMatriz D.1.44.1 Conexões Conector Origem Destino Associação Origem -> Destino Public NoReferenciaMatriz Private coluna NoExpressao Associação