Data Webhouse a Evolução do DW para a Web

2.4 DATA WAREHOUSE E DATA WEBHOUSE

2.4.1 Data Webhouse a Evolução do DW para a Web

Com a utilização de diversas tecnologias no nosso dia a dia, os sites recebem milhares de acessos, o que torna possível a coleta de informações valiosas. Essas informações podem auxiliar na melhoria dos serviços oferecidos e definição de estratégias competitivas. Desse modo, tornou-se necessária a criação de um DW focado nos usuários da web. A união entre a web e o DW origina o Data Webhouse (DWh).

A interação de usuários em sites, por meio da sequência de cliques (clickstream), gera dados comportamentais potencialmente úteis. De forma especifica, a sequência de cliques é uma série cronológica de ações minuciosas de usuários que pode ser agrupada em sessões (KIMBALL; MERZ, 2000). Assim, os dados são capazes de fornecer detalhes a respeito de cada ação (clique) realizado pelo usuário dentro do ambiente.

Em uma loja de varejo qualquer, o cliente caminha pelos seus corredores, comparando seus preços, selecionando alguns deles, descartando outros, até que, depois de tudo terminado, ele vai até o caixa e registra suas compras. Diferentemente desses tipos de lojas, em um ambiente virtual, é possível rastrear o cliente mensurando o que ele observa, o tempo de observação e quais produtos são rejeitados depois de observados, etc. Igualmente, ainda é possível reestruturar os “corredores” a fim de adequar aos anseios do cliente.

Atualmente, os servidores web possuem mecanismos para registrar as ações dos usuários que o visitam, cujo objetivo é medir a eficiência do servidor e o impacto provocado por ele. A informação armazenada pode ser utilizada para personalizar de forma dinâmica a apresentação do site ao usuário.

Isso faz com que aumente a relevância do conteúdo disponibilizado e o interesse à medida que se navega, ou quando do retorno em outra oportunidade.

Durante muito tempo, os arquivos de log (registro) dos servidores eram vistos apenas como um mecanismo para a detecção de atitudes indevidas. Enormes volumes de dados, ricos em informações escondidas, eram jogados fora, todos os dias, pelos administradores dos sites em geral.

O reconhecimento da importância das informações armazenadas nos logs impulsionou a análise desses arquivos, além de estimular o desenvolvimento de novos mecanismos para a captura do comportamento do usuário que visita um determinado site.

O armazenamento de todos esses dados trouxe, como consequência, um aumento dos bancos de dados. Os sites relacionados ao ambiente podem capturar milhões de ações diariamente.

Consequentemente, os bancos de dados que coletam esse tipo de fluxo de informações estão se tornando cada vez mais volumosos. Com isso, surge a necessidade de utilizar o Data Webhouse (DWh), visto que é um sistema adequado para armazenar e analisar grande quantidade de dados (ZAIANE, 2005).

Dessa forma, os dados comportamentais de usuários gerados pela Web alimentam o Data Webhouse (DWh), que permitem analisar de forma detalhada o comportamento do usuário. É possível obter informações sobre o cliente a cada clique, gesto, trajetória em um site, além da possibilidade de ser capaz de informar quais são os locais mais visitados, última página vista e o tempo gasto no site, o perfil de navegação do usuário, entre outros.

A partir das considerações explicitadas, é ilustrada a arquitetura que envolve um DWh em um AVA na Figura 10.

Figura 10. Arquitetura envolvida para desenvolvimento de um DWh Fonte: Adaptado de Kimball e Merz (2000).

Um usuário, por intermédio de um navegador, acessa o site hospedado no Servidor Web. As interações do usuário com o site são então capturadas pelo Servidor Web e armazenadas em um log

dentro da base de produção. Os dados presentes no servidor de produção são executados/copiados para uma área específica conhecida como staging area (área fria).

A staging area é responsável por armazenar uma cópia dos dados presentes no Banco de Dados (BD) de produção. O tratamento dos dados selecionados é realizado nesse repositório, antes da carga efetiva do DWh. Após cada carga realizada no DWh, a área é limpa, evitando o acesso a base de produção em caso de recarga e fornecendo unicidade e performance para a carga.

A partir dos dados de log presentes na staging area, inicia-se o processo de extração, limpeza, transformação e carga (ETL) dos dados para o DWh por meio do componente ETL. Este tem como principais objetivos a limpeza e remoção de inconsistências nos dados, identificação de valores incorretos, sujeiras e informações que não pertencem àquela seleção de dados. Após, são realizadas a redução de dimensionalidade dos dados, a combinação e unificação de atributos advindos de diversas tabelas. Dessa forma, ele serve como um pós-processador de sequência de cliques, preparando os dados capturados para serem carregados no DWh.

Uma vez alimentado o DWh, os dados ficam disponíveis para buscas por meio do SMA e demais ferramentas. Estes dados têm como objetivo dar suporte à análise das informações sobre o comportamento dos usuários durante a utilização do site na web e sistemas de informação (KIMBALL, 2004). Assim, usando um componente front-end, um usuário final pode analisar as informações.

No início do processo, existem os dados “brutos” (log do servidor Web). Eles são convertidos e exportados para o DWh. Este, por sua vez, é transformado em conhecimento mediante os diversos questionamentos que podem ser feitos. Por fim, as informações contidas no DWh objetivam apoiar o processo de tomada de decisões.

Além de manipular informações e descobrir conhecimento, o AVA precisa estar preparado para reagir imediatamente às ações dos alunos no ambiente, eliminando o tempo entre a ocorrência de um evento e a execução de uma ação (SASSI, 2010). Isso se chama Zero Latency Enterprise (ZLE). A ideia em uma estratégia do ZLE é usar o Data Webhouse integrado a outras ferramentas de Business Intelligence para fornecer informações de latência zero em tempo real para uma tomada de decisão mais rápida.

3 TRABALHOS RELACIONADOS

Este capítulo apresenta a revisão sistemática da literatura que tem como objetivo identificar e selecionar as principais técnicas utilizadas na extração de características de Ambientes Virtuais de Aprendizagem que utilizam a abordagem de Sistemas Multiagentes no seu desenvolvimento.

O capítulo está organizado da seguinte maneira em três subseções. A Seção 3.1 apresenta a revisão sistemática da literatura com o protocolo de busca e os trabalhos selecionados que oferecem uma proposta de solução relevante a esse problema. A Seção 3.2 realiza uma análise comparativa dos trabalhos relacionados. Por fim, a Seção 3.3 apresenta algumas considerações sobre o capítulo em questão.

No documento Jéferson Miguel Thalheimer - IIS Windows Server (páginas 47-50)