• Nenhum resultado encontrado

Analisando http://www.google.com.br

No documento 2007.1Monografia 2 (páginas 41-48)

3 Algoritmo de representação: resolvendo problemas, escolhendo estratégias e determinando

3.3 Escolhendo uma estratégia de seleção de queries

3.3.1 Analisando http://www.google.com.br

A Figura 8 mostra o crescimento obtido no número de termos em função da quantidade de documentos analisados, usando três estratégias diferentes de seleção de queries (maiores DFs, maiores TFs e Aleatória), na geração do Modelo de Linguagem do site www.google.com.br.

Figura 8: Termos no Modelo de Linguagem X Número de documentos analisados para www.google.com.br usando as estratégias de seleção de queries (maiores DFs, maiores TFs e aleatória)

Como se pode inferir a partir do gráfico da Figura 8 as estratégias baseadas em freqüência apresentaram um crescimento maior no número de termos na etapa inicial do processo. As estratégias passaram a apresentar diferenças por volta dos 800 documentos processados, onde a estratégia baseada em termos com as maiores DFs apresentou um retardo no aprendizado, ficando por volta dos 60000 termos. A estratégia baseada nos termos com maiores TFs apresentou também um retardo no aprendizado, porém um retardo menor, se comparado com a estratégia baseada nas maiores DFs.

A partir dos 700 documentos a estratégia baseada na escolha de termos aleatórios apresentou um aumento na inclinação do gráfico, chegando a faixa dos 800 documentos com mais de 65000 termos no modelo.

3.3.2 Analisando http://br.cade.yahoo.com

Utilizando uma estratégia de análise similar a do Tópico acima, foram gerados gráficos que mostram o crescimento no número de termos presentes no Modelo de Linguagem utilizando as estratégias de seleção de queries com maiores DFs, maiores TFs e aleatória para o site http://br.cade.yahoo.com.

O gráfico da Figura 9 demonstra o crescimento utilizando as três estratégias mencionadas.

Figura 9: Termos no Modelo de Linguagem X Número de documentos analisados para BR.cade.yahoo.com usando as estratégias de seleção de queries (maiores DFs, maiores TFs e aleatória)

De forma geral, os crescimentos no número de termos usando as estratégias baseadas na freqüência dos termos (DFs e TFs) foram bastante similares, porém o uso da estratégia aleatória proporcionou um crescimento muito mais rápido neste número desde o inicio da geração do Modelo de Linguagem.

O processamento de 800 documentos levou ao gráfico da Figura 9 um número em torno de 70000 termos. Com esta mesma quantidade de documentos processados, a estratégia baseada nas maiores DFs levou ao LM uma quantidade de 40000 termos e a estratégia baseada nas maiores TFs, uma quantidade próxima de 41000.

3.3.3 Analisando http://www.goocrente.com

O site http://www.goocrente.com foi analisado da mesma maneira que os sites anteriores, onde o gráfico da Figura 10 representa o crescimento no número de termos utilizando a estratégia de seleção de queries com maiores DFs, com maiores TFs e utilizando a estratégia de seleção de termos de forma aleatória.

Figura 10: Termos no Modelo de Linguagem X Número de documentos analisados para www.goocrente.com usando as estratégias de seleção de queries (maiores DFs, maiores TFs e aleatória)

O crescimento no número de termos utilizando todas as três estratégias foi bastante parecido para o site em analise, com a estratégia de seleção de queries aleatória levemente superior.

3.3.4 Analisando http://www.noah-health.org

Este site (http://www.noah-health.org) tem por característica principal um conjunto muito direcionado de documentos (material sobre saúde). Tal característica se manifesta bastante importante na qualidade da avaliação geral sobre o crescimento no número de termos a partir da estratégia escolhida, já que a análise de bases de dados com características diferentes é importante para uma conclusão final.

O gráfico da Figura 11 mostra, da mesma forma que os anteriores, o crescimento no número de termos encontrados utilizando as três estratégias de seleção de queries diferentes.

Figura 11: Termos no Modelo de Linguagem X Número de documentos analisados para www.noah-health.org usando as estratégias de seleção de queries (maiores DFs, maiores TFs e aleatória)

De forma geral, as duas estratégias baseadas nas maiores freqüências dos termos (DFs e TFs) se comportaram de forma muito semelhante e a estratégia de seleção aleatória mostrou um aprendizado muito superior.

Após o processamento de 500 documentos, a série aleatória do gráfico teve um novo ápice de crescimento, enquanto que as outras duas series tenderam a chegar ao limite da função logarítmica, estagnando o número de termos em 13000 aproximadamente.

Tudo leva a crer que as técnicas baseadas em freqüência levaram o Modelo de Linguagem a uma espécie de aprisionamento em um contexto, retornando sempre os mesmos documentos, ou documentos de contextos similares, deixando de analisar desta forma, um conjunto de documentos que existiam na base, mas que pelas queries que eram enviadas eles não eram recuperados.

3.3.5 Analisando http://www.viewsonic.com

O site a ser analisado neste tópico (http://www.viewsonic.com) teve por característica principal uma quantidade muito pequena de termos encontrados (apenas 10000 em uma quantidade de 1000 documentos lidos). Assim como no tópico 3.3.4 esta também foi uma característica importante para validar e resultado final obtido, já que bases de dados com características diferentes estão sendo analisadas.

Como nos tópicos anteriores, será apresentado a seguir o gráfico que demonstra o crescimento no número de termos em função da quantidade de documentos analisados usando três estratégias de seleção de queries distintas. O gráfico citado pode ser visto na Figura 12.

Figura 12: Termos no Modelo de Linguagem X Número de documentos analisados para www.viewsonic.com usando as estratégias de seleção de queries (maiores DFs, maiores TFs e aleatória)

Como se pode inferir a partir da análise do gráfico da Figura 12, quase não houve diferenças no número de termos encontrados para as três estratégias utilizadas no decorrer da quantidade de documentos analisados.

3.3.6 Analisando http://www.virtualchase.com

A análise do crescimento para este site foi, de certa forma, limitada pela pouca quantidade de documentos recuperados. Esta pouca quantidade se deu provavelmente por limitações do próprio site.

De qualquer forma, o gráfico da Figura 13 mostra o crescimento no número de termos presentes no LM utilizando três estratégias de seleção e queries diferentes.

Figura 13: Termos no Modelo de Linguagem X Número de documentos analisados para www.virtualchase.com usando as estratégias de seleção de queries (maiores DFs, maiores TFs e aleatória)

Como se pode perceber, apesar de as três séries do gráfico da Figura 13 serem bastante parecidas, a utilização da estratégia de seleção de queries de forma aleatória demonstrou um crescimento um pouco superior em relação às outras estratégias.

3.3.7 Analisando http://www.nobel.se

Para o site http://www.nobel.se foi analisado, da mesma maneira que os outros sites, o crescimento no número de termos presentes no Modelo e Linguagem usando três estratégias diferentes. Os resultados de tais crescimentos podem ser vistos na Figura 14.

Figura 14: Termos no Modelo de Linguagem X Número de documentos analisados para www.nobel.se usando as estratégias de seleção de queries (maiores DFs, maiores TFs e aleatória)

Como já obtido em experiências anteriores, os crescimentos no número de termos utilizando as estratégias baseadas em freqüência (maiores DFs e maiores TFs) foram bastante parecidos. E a utilização da estratégia de seleção de queries de forma aleatória levou a um conjunto superior de termos no Modelo.

3.3.8 Considerações

A partir da análise dos gráficos de crescimento no número de termos em função do número de documentos processados presentes no tópico 3.3 , pôde-se inferir que a estratégia aleatória de seleção de queries é a mais apropriada para uso no algoritmo da solução final, já que esta estratégia não teve um desempenho pior em nenhum dos casos, sendo semelhante em alguns e superior nos outros.

A conclusão semelhante a obtida por Monroe, et al. (2000) apesar de parecer redundante, foi importante para a comprovação desta característica na analise de bases de dados invisíveis, pois em seu estudo, o autor realizou o seus experimentos em bases de dados locais.

No documento 2007.1Monografia 2 (páginas 41-48)

Documentos relacionados