5.2 APLICAÇÃO DA METODOLOGIA
5.2.1 Adaptação de atributos
No presente projeto, a etapa de adaptação dos atributos teve início com a consolidação, em atributos de sites, dos dados relativos a páginas Web. Conforme apresentado no Apêndice 5, para cada uma das coletas, os registros são divididos em duas unidades de pesquisa, “página” e “site”. A primeira contém informações relativas às páginas encontradas, como a validação do código Hypertext Markup
Language (HTML), e é identificada pela própria Uniform Resource Locator (URL) de
acesso à página. A segunda, possui informações relativas aos sites, em geral comuns a todas as suas páginas, como sua localização geográfica e seu tipo de servidor Web e, ela é identificada pela URL do site.
Esse passo foi importante devido à dificuldade de se aplicar técnicas de aprendizado de máquina à totalidade dos registros dessa última unidade de pesquisa. Apenas para ilustrar a diferença de escala entre essas duas unidades, a base de sites obtida na coleta realizada em 2010 possuía um total de 11,9 mil registros, enquanto a de páginas, 6,3 milhões registros. As quantidades para os outros anos estão descrita na Tabela 5.1, porém as ordens de grandeza são equivalentes. Assim, os atributos descritos na Tabela 5.3 foram criados e adicionados à unidade de pesquisa “site”. A descrição dos indicadores originais se encontra no Apêndice 5.
76 Tabela 5.3- Atributos adicionados à unidade de pesquisa “site” devido à consolidação dos atributos
referentes à unidade de pesquisa “páginas”
Atributo Processo de aquisição
Quantidade de redirecionamentos
encontrados Contabilização de páginas com resposta HTTP Redirect (HTTP status = 3XX) Quantidade de páginas HTTP OK
encontradas
Contabilização de páginas com resposta HTTP OK (HTTP status = 2XX)
Quantidade de links para páginas HTML Contabilização de páginas identificadas com o MIME “text/html”
Quantidade de links para documentos de
texto puro Contabilização de páginas identificadas com o MIME “text/plain”
Quantidade de links para aplicativos Contabilização de páginas identificadas com o MIME “application”
Quantidade de páginas com acessibilidade nível A*
Contabilização do número de páginas que não apresentaram erros de prioridade 1 e pelo menos um erro de prioridade 2*
Número médio de erros de nível 1 na validação de acessibilidade*
Cálculo da média de erros de prioridade 1 por página*
Número médio de avisos de nível 1 na
validação de acessibilidade* Cálculo da média de avisos de prioridade 1 por página* Quantidade de páginas com acessibilidade
nível AA*
Contabilização do número de páginas que não apresentaram erros de prioridade 1 e 2 e pelo menos um erro de prioridade 3*
Número médio de erros de nível 2 na
validação de acessibilidade* Cálculo da média de erros de prioridade 2 por página* Número médio de avisos de nível 2 na
validação de acessibilidade*
Contabilização da média de avisos de prioridade 2 por página*
Quantidade de páginas com acessibilidade
nível AAA* Contabilização do número de páginas que não apresentaram erros de prioridade 1, 2 e 3* Número médio de erros de nível 3 na
validação de acessibilidade* Cálculo da média de erros de prioridade 3 por página* Número médio de avisos de nível 3 na
validação de acessibilidade* Cálculo da média de avisos de prioridade 3 por página* Quantidade média de erros na validação
HTML por página Cálculo da média de erros HTML por página
Tamanho médio por página Cálculo da média dos tamanhos das páginas
Profundidade média Contabilização da média da profundidade das páginas em relação à raiz do site
Atributo Processo de aquisição
Tamanho mínimo de página Identificação do tamanho da menor página do site
Desvio padrão do tamanho das páginas Cálculo do desvio padrão dos tamanhos das páginas do site
Quantidade de páginas estáticas Contabilização da quantidade de páginas estáticas segundo critério de identificação do WIRE
Quantidade de páginas dinâmicas Contabilização da quantidade de páginas dinâmicas segundo critério de identificação do WIRE
Média das idades das páginas Cálculo da média das idades das páginas
Idade mínima das páginas Identificação idade da página mais recente do site
Idade máxima das páginas Identificação idade da página mais antiga do site
Profundidade máxima das páginas Identificação profundidade máxima das páginas
Profundidade média das páginas Cálculo da profundidade média das páginas
* A descrição de níveis e prioridades de acessibilidade se encontra na Seção 2.3
Além da consolidação dos dados provenientes das páginas, alguns dos atributos dos sites também tiveram de ser transformados ou removidos devido ao seu formato ou conteúdo serem inadequados ao processamento realizado pelas técnicas de aprendizado de máquina. Os seguintes atributos foram removidos graças à sua irrelevância ao processo de análise:
Nome do site; Domínio;
Endereço IPv4; Endereço IPv6; e
Grupo em que se encontra na estrutura macroscópica da Web, conforme descritos na Figura 3.1.
78
Já os itens a seguir foram transformados em atributos numéricos, adequados ao processamento do aprendizado de máquina:
Tipo de Servidor: dado que não existe relação de superioridade entre os tipos de servidores encontrados, o atributo foi separado em 4 valores independentes. Servidor apache, servidor microsoft_IIS, servidor zope e servidor nginx. A escolha dessas variáveis foi determinada pela popularidade desses tipos de servidores conforme mostrado nos resultados da Seção 5.1.5. Cada um dos atributos criados pode receber valores positivos ou negativos, dependendo do site registrado utilizar ou não o tipo de servidor respectivo ao atributo. O caso de nenhum desses atributos ser positivo, indica que o site utiliza outro tipo de servidor.
Localização geográfica: Separada em 2 valores independentes. Site localizado no Brasil e localização não identificada. O funcionamento desses novos atributos booleanos é similar ao descrito para os novos atributos indicativos do tipo de servidor. Com essa mudança, a localização de servidores no exterior foi agrupada em um único conjunto de valores. Isso, aconteceu pois os classificadores de qualidade a serem gerados são voltados ao público brasileiro.
A Tabela 5.4 mostra o resultado final da adaptação dos atributos.