UMA ARQUITETURA PARA DESCOBERTA DE CONHECIMENTO A

PARTIR DE BASES TEXTUAIS

Silva (2012) propõe uma arquitetura computacional baseada na computação distribuída para manipulação de grandes bases de informação textual visando contribuir no processo de Descoberta de Conhecimento em texto. A apresentação de sua proposta foi dividida em duas etapas, uma do modelo lógico e a outra do modelo físico.

O modelo lógico apresenta a parte de software que lida com conteúdo textual, visando oferecer suporte às tarefas de descoberta de conhecimento e Silva (2012) denomina o conjunto de tarefas desse modelo de “Serviço de Correlação”. A Figura 3 apresenta o modelo lógico proposto por Silva (2012).

Figura 3 – Modelo lógico da arquitetura de descoberta de conhecimento em bases textuais Fonte: Adaptado de Silva (2012).

Na etapa que trata do modelo lógico, Silva (2012) faz a inserção de novos termos, classes e domínios formando conceitos por meio da associação dos termos as classes, buscando agregar sentido aos termos. Para exemplificar Silva (2012) apresenta o termo “Jaguar”, que quando associado a classe “Carro” representa um automóvel, porém, quando associado a classe “Animal”

representa o felino encontrado em florestas. Por fim, Silva (2012) faz a associação dos conceitos aos domínios (domínio do problema) essa tarefa é realizada manualmente com o auxílio de um especialista.

Silva (2012) destaca que existe a possibilidade de se usar semântica por meio de classes e domínios específicos, permitindo agregar funcionalidades em serviços de busca que não utilizam semântica na sua execução. É o caso geralmente encontrado em ferramentas disponibilizadas em sites de tribunais.

No modelo lógico proposto por Silva (2012), após as associações de termos, classes e domínios, é feita uma requisição de termos obtendo-se como resultado um conjunto com todos os conceitos gerados anteriormente ou filtrados por domínios específicos, que serão utilizados na tarefa de análise.

No passo seguinte Silva (2012), faz a geração de frequência individual por conceito. O processo consiste em contar o número de páginas em que cada conceito é encontrado e ao final cada um dos conceitos terá seu valor de frequência. Então conceito e frequência são armazenados na base de dados. Além disso, a data do sistema é registrada, pois, o processo é temporal.

O Serviço de Correlação faz, então, a divisão da tarefa. A lista adquirida anteriormente é separada em listas menores chamadas de “trabalho (job)” com o objetivo que um conjunto de computadores responsável por atender ao serviço possa chegar a uma solução de forma distribuída.

Silva (2012) define “trabalho (job)” como o processo de gerar a frequência conjunta dos conceitos e calcular o coeficiente de correlação.

Os trabalhos (jobs) são enviados aos computadores que compõem a estrutura de grid (modelo computacional que divide tarefas entre diversas máquinas), um serviço de correlação monitora a execução dos trabalhos repassando um novo trabalho ao computador que se encontrar ocioso. Esse processo se repete até que todos os itens da lista geral sejam concluídos, finalizando assim, a tarefa. As etapas seguintes são executadas de forma distribuída.

A forma de gerar a frequência conjunto é semelhante ao processo para geração da frequência individual, porém a frequência conjunta refere-se ao número de documentos em que dois conceitos quaisquer apareçam simultaneamente. A partir das frequências individuais e conjuntos Silva (2012) calcula o coeficiente de correlação.

O modelo físico descreve os componentes tecnológicos e os serviços, e como estes se interconectam. É feita uma breve descrição do serviço de consulta BING utilizado no trabalho. Segundo Silva (2012), o BING permite a realização de 7 (sete) pesquisas por segundo para cada IP (Internet Procotol) válido enquanto a API (Application Programming Interface) de busca do Google® possui um limite de 100 consultas diárias. Silva (2012) não relata nenhum tipo de limitação relacionado ao número de consultas diárias do BING ficando a limitação diária a cargo do número de máquinas com IP válidos e o intervalo de tempo.

Segundo Silva (2012), o formato do resultado das consultas do BING são XML ou JSON.

Neste trabalho a optou-se por utilizar o JSON que apresenta uma estrutura mais simples em relação ao formato XML. Ainda segundo Silva (2012), JSON é menor e mais rápido usando menos recursos. Outro ponto destacado pelo autor é que a única informação utilizada pelo modelo de correlação proposto é o número de páginas em que se encontra determinado termo, assim, a

consulta foi refinada para diminuir o tamanho JSON. Um exemplo de consulta elaborado por Silva (2012) pode ser visto no Quadro 3.

url de exemplo de consulta

http://api.bing.net/json.aspx?Appid=837AB&query="ufsc"&sources=web&Web.Count=1 Quadro 3: URL de consulta usando o serviço de busca BING.

Fonte: Adaptado de Silva (2012)

Segundo Silva (2012), o serviço de consulta Bing® versão gratuita se mostrou adequada ao serviço de correlação, sendo caracterizado pelo autor deste trabalho como um dos maiores servidores de consulta, possuindo um bom desempenho e boa confiabilidade.

Como resultado da consulta mostrado no Quadro 3, o serviço de busca retornou um objeto JSON conforme estrutura apresentada na Figura 4. O objeto JSON apresentado está resumido, algumas informações não utilizadas foram retiradas pelo autor.

Figura 4 – Exemplo de resposta do servidor de consulta em formato JSON.

Fonte: Silva (2012).

Segundo Silva (2012), a única informação pertinente se refere ao número de páginas em que o termo pesquisado é encontrado. No exemplo apresentado, a linha 7 da Figura 4 mostra um total de 5.290.000 páginas encontradas para o termo “ufsc”. Após a realização das consultas é gerada a frequência conjunta entre dois termos, calculado o coeficiente de correlação e armazenada essa informação no banco de dados que utiliza o conceito de Data Warehouse (DW). Segundo Silva (2012), Data Warehouse dá suporte às demandas de alto desempenho por dados e informações.

Para calcular o coeficiente de correlação Silva (2012) utilizou a equação de Phi-squared que, segundo ele, gera uma normalização dos resultados entre 0 e 1 facilitando a interpretação na análise de cenários. O trabalho desenvolvido por Silva (2012) foi executado 19 vezes, entre 16/05/2012 a 06/06/2012, sendo uma execução por dia. Foi criado um cenário visando uma variação temporal pelo fato de que a análise de correlação é realizada em médio e longo prazo.

Foram utilizados na execução 11 conceitos que representam eventos sazonais ou que estavam em evidência na época da execução. O “Dia das mães”, “Dia dos Namorados”, “Eleições”,

“Vestibular de inverno”, “Olimpíadas” e “Brasileirão” foram escolhidos por conta sazonalidade. Os conceitos “crise”, “Euro”, “Dólar”, “Grécia” e “Londres” estavam em evidência na época da execução.

Segundo Silva (2012), as classes e domínios forma definidos como genéricos pelo fato do serviço de consulta não possuir semântica. Sendo assim, irrelevante a definição de classes e domínios específicos para o modelo proposto. Contudo, o conceito pode deixar de ser entendido como tal passando a ser apenas um termo.

Os resultados da execução são apresentados por Silva (2012) em forma de histograma e dados numéricos. O conceito “Dia das mães”, por exemplo, apresenta uma frequência individual de aproximadamente 40 milhões no primeiro dia de execução e sofre uma queda gradual passa a apresentar uma frequência individual de 25 milhões no último dia de execução.

Com relação à frequência conjunto, Silva (2012) analisou os conceitos “Crise” e “Grécia”

que apresentaram picos de aproximadamente 18 milhões no sétimo e oitavo dia de execução e uma média nos outros dias de execução entorno de 10 milhões. Foi observado que esses picos ocorreram em dias de divulgação de notícias que poderiam afetar de forma drástica a economia do país.

De acordo com Silva (2012), com base nos resultados alcançados pode-se afirmar que o modelo proposto atendeu aos seus propósitos, permitindo a análise sobre determinado domínio de aplicação. Sendo possível a elaboração de representações visuais como histogramas, gráficos, grafos, entre outros. A estrutura física distribuída formada pelo conjunto de computadores se mostrou flexível e escalável com possibilidade de expansão se necessário, permitindo a inclusão de computadores com hardware e sistemas operacionais distintos.

3.3 APRENDIZADO NÃO SUPERVISIONADO DE HIERARQUIAS DE

No documento universidade do vale do itajaí - Univali (páginas 44-49)