• Nenhum resultado encontrado

QUANDO QUAL O QUE ONDE COMO CONSULTAS POR QUÊ PARA QUE

2. Substituição de expressões similares: termos pouco usuais são substituídos por expressões mais conhecidas. Por exemplo, o termo LAN é substituído por ‘Rede de Computadores’;

3. Análise Léxica do texto da consulta: identifica e remove símbolos (dígitos, sinais de pontuação, hífens, parênteses e colchetes), além de padronizar as minúsculas/maiúsculas. Sinais de acentuação são especialmente tratados nesta etapa devido a erros gramaticais comuns na escrita;

4. Remoção das stop words, com o intuito de remover palavras que não promovem a desambiguação de textos, como explicado anteriormente;

5. Separação de nomes próprios: os nomes próprios (pessoas, países, estados, cidades ou organizações) não devem passar por nenhum tratamento morfológico, pois eles determinam entidades únicas/exclusivas. Deste modo, nesta etapa, os nomes próprios são identificados e separados dos processamentos subseqüentes até serem chamados ao processamento; 6. Aplicação de stemming: Nesta etapa, são também reconhecidas na consulta

do usuário e devidamente processadas até 220 regras gramaticais da língua portuguesa, incluindo tempos verbais (passado, presente, futuro), plural/singular, feminino/masculino, aumentativo/diminutivo, advérbios, entre outras regras;

7. Expansão dos termos das consultas: os termos da consulta do usuário são expandidos através da utilização de uma lista de sinônimos com aproximadamente 40.000 entradas e 500.000 sinônimos. Esta lista é constantemente ampliada com palavras de idéias afins para torná-la sempre mais coloquial e universal nas áreas de conhecimento e de interesse dos usuários, aproximando-a de um verdadeiro Tesauro56;

8. Adição de nomes próprios: nesta etapa, os nomes próprios são adicionados

56 A palavra Tesauro tem origens grega e latina e é usada como uma referência para um tesouro de

palavras. Em sua forma mais simples, este tesouro consiste de (1) uma lista pré-compilada de palavras importantes em um dado domínio de conhecimento e (2) para cada palavra nesta lista, um conjunto de palavras relacionadas. Palavras relacionadas são, em sua mais comum variação, derivadas de uma relação entre sinônimos. Em geral, contudo, um Tesauro também involve alguma normalização de vocabulário e inclui uma estrutura muito mais complexa que uma lista simples de palavras e seus sinônimos (YATES; NETO, 1999, p. 170, tradução nossa).

íntegros à consulta para serem processados pela solução;

9. Seleção da área de conhecimento: através da área de interesse definida pelo usuário, a solução seleciona as consultas relacionadas à requisição do usuário previamente submetidas no ambiente; e

10. Identificação da similaridade: através do grau de similaridade definido pelo usuário, a solução calcula matematicamente a similaridade entre as consultas recuperando aquelas que possuem orientações armazenadas na Base de Conhecimentos, similares à consulta do usuário.

Estas etapas, trabalhando conjuntamente, somadas a um de banco de dados constituem a parte essencial e estrutural do algoritmo57 para processamento das consultas dos usuários. Esta lógica computacional foi transcrita por uma linguagem de programação58, o Borland DELPHI Professional 7.0, e o sistema de banco de dados relacional59 foi construído com MS-Access.

Estas ferramentas possibilitaram a construção de um sistema de informação baseado em computador60. O DELPHI foi escolhido devido ao conhecimento prévio na sua utilização, todavia outras linguagens que tenham uma estrutura sintática similar poderiam ter sido empregadas para a sua construção, tais como: C/C++ ou Java, inclusive com resultados (performance) superiores.

57

Algoritmo ou procedimento “é uma seqüência finita de instruções que podem ser executadas por um agente computacional, seja ele humano ou não. Este conceito corresponde, portanto, às noções intuitivas de ‘receita’, ‘roteiro’, ‘método’, etc.” (LUCCHESI, 1979, p. 4).

58 Linguagem de programação é “uma linguagem intencionada para ser usada por uma pessoa para

expressar um processo pelo qual um computador pode solucionar um problema. Linguagens de programação diferem de linguagens naturais em diferentes meios. Primeiro, a comunicação primária é entre uma pessoa e um computador, embora elas são também úteis para comunicação entre pessoas. A segunda maior diferença está no conteúdo da comunicação, que, no caso de linguagens de programação, é conhecido como programa“ (DERSHEM; JIPPING, 1993, p. 1, tradução nossa).

59

Sistema de Banco de Dados é “basicamente um sistema computadorizado de manutenção de registros; em outras palavras, é um sistema computadorizado cuja finalidade geral é armazenar informações e permitir que os usuários busquem e atualizem essas informações quando solicitar. Um sistema relacional é aquele no qual (1) Os dados são percebidos pelo usuário como tabelas (e nada além de tabelas); (2) Os operadores à disposição do usuário geram tabelas ‘novas’ a partir de tabelas ‘antigas’” (DATE, 2004, p. 51).

60

Sistema de Informação “pode ser definido como todo e qualquer sistema que possui dados ou informações de entrada que tenham por fim gerar informações de saída para suprir determinadas necessidades” (BATISTA, 2006, p. 19). Um sistema de informação baseado em computador (SIBC) utiliza este equipamento como base tecnológica para o seu funcionamento.

4.2 A BASE DE CONHECIMENTOS

Uma Base de Conhecimentos computacional possui um conjunto de dados e informações que forma a sua base de dados. Através do processamento desses dados por um programa de computador, eles são transformados em informação pela ação de um usuário. A Base de Conhecimentos do Hospital Educacional armazena algumas informações fundamentais:

1. Todas as consultas que foram formuladas pelos alunos;

2. Os descritores das consultas, isto é, o resultado do processamento computacional utilizado para comparar as consultas e determinar a similaridade entre elas;

3. A data de quando a consulta foi realizada; e

4. As orientações61, propostas pelo professor, bolsista ou alunos, que passaram pelo processo de validação.

Atualmente, a Base de Conhecimentos suporta as seguintes áreas de conhecimento:

 Redes de Computadores, incluindo os seguintes tópicos: Conceitos,

Classificação, Protocolos, Modelo ISO/OSI, Internet, Cabeamento, Tecnologia

wireless, Topologia, Dispositivos de conexão (Hub, Switch, MAU, Gateway),

etc...;

 Segurança Digital, incluindo: Conceitos, Vírus, Spyware, Firewall, Antivírus,

Hacker, Cracker, etc...;

 Banco de Dados, incluindo: Sistema Gerenciador de Banco de Dados, Tipos

de Banco de Dados, Modelo Relacional (Entidades, Tabelas, Registros, Atributos, Dicionário de Dados), Relacionamento, Tipos de Chaves (Primária, Secundária, Estrangeira, Composta), etc...;

 Engenharia de Software, incluindo: Linguagens de programação,

61

As orientações, que foram ‘rejeitadas’ no processo de validação, estão armazenadas em uma outra tabela de dados, mas não estão armazenadas na Base de Conhecimentos.

Ferramentas, Certificações, CMM, etc...;

 Sistemas Operacionais, incluindo: Conceitos, Classificação, Tipos de

Processamento, MS-Windows, Linux, etc...;

 Sistemas de Informação, incluindo: Conceitos, Evolução, Tipos de Sistemas,

Categorias de Profissionais (Analista de Sistemas, CIO), CRM, SCM, ERP,

Business Intelligence, Data Mining, eCommerce, eBusiness, MS-Project,

etc...; e

 Outras62.

Estas áreas de conhecimento fazem parte do conteúdo das disciplinas de Administração de Sistemas de Informação (ADM219) e Sistemas de Informação Gerencial (ADM220) da Escola de Administração da UFBA. A partir de 2009-1, elas foram substituídas pelas disciplinas Automação de Unidades de Informação (BIB03901) e Tópicos Especiais – Tecnologia da Informação (BIB03913) do Departamento de Biblioteconomia da UFES.

Todavia, estas áreas de conhecimento, incorporadas no Hospital Educacional, não são exclusivas. Isto significa que outras áreas podem ser adicionadas à sua Base de Conhecimentos a depender apenas de um professor que monitore as consultas e valide as orientações propostas pelos alunos nessas outras áreas de conhecimento63. O capítulo 6, deste documento, descreve mais detalhadamente o conteúdo da Base de Conhecimentos.

4.2.1 A Inteligência da Solução

A “inteligência” da solução é incremental, não intrínseca. Isto porque a solução somente é capaz de fornecer uma orientação a uma nova consulta formulada por um aluno caso o seu descritor seja similar ao descritor de uma outra consulta que já tenha sido respondida anteriormente e a sua orientação esteja armazenada na Base de Conhecimentos. Caso não haja orientação, o aluno que formula a nova consulta

62

A opção ‘Outras’ é para armazenar todas as orientações que não se encaixam nas opções anteriores, mas que tenham cunho em Tecnologia da Informação e Conhecimento.

63

Devido à importância da Base de Conhecimentos no Hospital Educacional, o capítulo 6 explica mais profundamente o que ela representa e expõe seu conteúdo através de alguns exemplos.

deverá esperar por uma resposta até que um outro colega proponha uma orientação válida a ela. A nova orientação incrementa, assim, a “inteligência” da solução ou, em outras palavras, a sua capacidade em atender a uma nova requisição.

A nova requisição, a ser respondida, não necessariamente deve ter os mesmos termos para ser respondida automaticamente, como ocorre em um FAQ. A nova requisição precisa apenas conter termos sinônimos e expressões similares a uma consulta previamente respondida, conforme a lógica computacional apresentada na seção 4.1.

Deve-se ressaltar que o ponto da inovação tecnológica não é apenas devido aos recursos de Processamento de Linguagem Natural construídos na solução. Mas, é a aplicação da solução juntamente com as práticas pedagógicas elaboradas neste trabalho, possibilitando a interação colaborativa entre os alunos para a construção e difusão do conhecimento.

Para clarificar como isso ocorre, é apresentada uma seqüência de momentos64, apresentada em figuras, que demonstra como é realizado o processamento das consultas pela solução. Notar que a segunda consulta não é igual à primeira, mesmo assim, a aluna que formulou a segunda consulta obtém a orientação requisitada.