• Nenhum resultado encontrado

5.2 APLICAÇÃO DA METODOLOGIA

5.2.1 Adaptação de atributos

No presente projeto, a etapa de adaptação dos atributos teve início com a consolidação, em atributos de sites, dos dados relativos a páginas Web. Conforme apresentado no Apêndice 5, para cada uma das coletas, os registros são divididos em duas unidades de pesquisa, “página” e “site”. A primeira contém informações relativas às páginas encontradas, como a validação do código Hypertext Markup

Language (HTML), e é identificada pela própria Uniform Resource Locator (URL) de

acesso à página. A segunda, possui informações relativas aos sites, em geral comuns a todas as suas páginas, como sua localização geográfica e seu tipo de servidor Web e, ela é identificada pela URL do site.

Esse passo foi importante devido à dificuldade de se aplicar técnicas de aprendizado de máquina à totalidade dos registros dessa última unidade de pesquisa. Apenas para ilustrar a diferença de escala entre essas duas unidades, a base de sites obtida na coleta realizada em 2010 possuía um total de 11,9 mil registros, enquanto a de páginas, 6,3 milhões registros. As quantidades para os outros anos estão descrita na Tabela 5.1, porém as ordens de grandeza são equivalentes. Assim, os atributos descritos na Tabela 5.3 foram criados e adicionados à unidade de pesquisa “site”. A descrição dos indicadores originais se encontra no Apêndice 5.

76 Tabela 5.3- Atributos adicionados à unidade de pesquisa “site” devido à consolidação dos atributos

referentes à unidade de pesquisa “páginas”

Atributo Processo de aquisição

Quantidade de redirecionamentos

encontrados Contabilização de páginas com resposta HTTP Redirect (HTTP status = 3XX) Quantidade de páginas HTTP OK

encontradas

Contabilização de páginas com resposta HTTP OK (HTTP status = 2XX)

Quantidade de links para páginas HTML Contabilização de páginas identificadas com o MIME “text/html”

Quantidade de links para documentos de

texto puro Contabilização de páginas identificadas com o MIME “text/plain”

Quantidade de links para aplicativos Contabilização de páginas identificadas com o MIME “application”

Quantidade de páginas com acessibilidade nível A*

Contabilização do número de páginas que não apresentaram erros de prioridade 1 e pelo menos um erro de prioridade 2*

Número médio de erros de nível 1 na validação de acessibilidade*

Cálculo da média de erros de prioridade 1 por página*

Número médio de avisos de nível 1 na

validação de acessibilidade* Cálculo da média de avisos de prioridade 1 por página* Quantidade de páginas com acessibilidade

nível AA*

Contabilização do número de páginas que não apresentaram erros de prioridade 1 e 2 e pelo menos um erro de prioridade 3*

Número médio de erros de nível 2 na

validação de acessibilidade* Cálculo da média de erros de prioridade 2 por página* Número médio de avisos de nível 2 na

validação de acessibilidade*

Contabilização da média de avisos de prioridade 2 por página*

Quantidade de páginas com acessibilidade

nível AAA* Contabilização do número de páginas que não apresentaram erros de prioridade 1, 2 e 3* Número médio de erros de nível 3 na

validação de acessibilidade* Cálculo da média de erros de prioridade 3 por página* Número médio de avisos de nível 3 na

validação de acessibilidade* Cálculo da média de avisos de prioridade 3 por página* Quantidade média de erros na validação

HTML por página Cálculo da média de erros HTML por página

Tamanho médio por página Cálculo da média dos tamanhos das páginas

Profundidade média Contabilização da média da profundidade das páginas em relação à raiz do site

Atributo Processo de aquisição

Tamanho mínimo de página Identificação do tamanho da menor página do site

Desvio padrão do tamanho das páginas Cálculo do desvio padrão dos tamanhos das páginas do site

Quantidade de páginas estáticas Contabilização da quantidade de páginas estáticas segundo critério de identificação do WIRE

Quantidade de páginas dinâmicas Contabilização da quantidade de páginas dinâmicas segundo critério de identificação do WIRE

Média das idades das páginas Cálculo da média das idades das páginas

Idade mínima das páginas Identificação idade da página mais recente do site

Idade máxima das páginas Identificação idade da página mais antiga do site

Profundidade máxima das páginas Identificação profundidade máxima das páginas

Profundidade média das páginas Cálculo da profundidade média das páginas

* A descrição de níveis e prioridades de acessibilidade se encontra na Seção 2.3

Além da consolidação dos dados provenientes das páginas, alguns dos atributos dos sites também tiveram de ser transformados ou removidos devido ao seu formato ou conteúdo serem inadequados ao processamento realizado pelas técnicas de aprendizado de máquina. Os seguintes atributos foram removidos graças à sua irrelevância ao processo de análise:

 Nome do site;  Domínio;

 Endereço IPv4;  Endereço IPv6; e

 Grupo em que se encontra na estrutura macroscópica da Web, conforme descritos na Figura 3.1.

78

Já os itens a seguir foram transformados em atributos numéricos, adequados ao processamento do aprendizado de máquina:

Tipo de Servidor: dado que não existe relação de superioridade entre os tipos de servidores encontrados, o atributo foi separado em 4 valores independentes. Servidor apache, servidor microsoft_IIS, servidor zope e servidor nginx. A escolha dessas variáveis foi determinada pela popularidade desses tipos de servidores conforme mostrado nos resultados da Seção 5.1.5. Cada um dos atributos criados pode receber valores positivos ou negativos, dependendo do site registrado utilizar ou não o tipo de servidor respectivo ao atributo. O caso de nenhum desses atributos ser positivo, indica que o site utiliza outro tipo de servidor.

Localização geográfica: Separada em 2 valores independentes. Site localizado no Brasil e localização não identificada. O funcionamento desses novos atributos booleanos é similar ao descrito para os novos atributos indicativos do tipo de servidor. Com essa mudança, a localização de servidores no exterior foi agrupada em um único conjunto de valores. Isso, aconteceu pois os classificadores de qualidade a serem gerados são voltados ao público brasileiro.

A Tabela 5.4 mostra o resultado final da adaptação dos atributos.