APÊNDICE 5 ESPECIFICAÇÃO DE INDICADORES
5.3 INDICADORES DE PÁGINAS
A unidade de pesquisa página é identificada pela própria URL da página, e.g., “http://www.exemplo.com.br/local/pagina”. Esse atributo serve também para a diferenciação entre páginas dinâmicas e estáticas, considerando, para tanto, a extensão do documento referenciado e a existência de parâmetros HTTP embutidos na URL. Outra aplicação para essa variável é a identificação do tipo de linguagem na qual a página foi codificada, também defina pela extensão do documento por ela referenciada.
Os atributos avaliados para esta unidade de pesquisa estão listados na Tabela Apêndice 5.2. Para facilitar seu entendimento, eles foram relacionados tanto a seus respectivos conceitos correlatos, de acordo com o explicitado nos Capítulos 0 e 1 do corpo principal desta monografia, quanto às ferramentas responsáveis por obtê-los, conforme será apresento no Apêndice 6.
Tabela Apêndice 5.2 – Conjunto de indicadores analisados pelo projeto TIC Web para a unidade de pesquisa página.
Indicador Ferramenta de extração Relacionado Conceito
Nome do site WIRE
Padrões abertos
Nome da página WIRE
Status HTTP WIRE
Tipo do documento ConNeCTOR
Tipo MIME WIRE
Quantidade de erros de acessibilidade de
prioridade 1 ConNeCTOR
Padrões de acessibilidade Quantidade de erros de acessibilidade de
prioridade 2 ConNeCTOR
Quantidade de erros de acessibilidade de
prioridade 3 ConNeCTOR
Quantidade de avisos de acessibilidade
138
Indicador Ferramenta de extração Conceito
Relacionado Quantidade de avisos de acessibilidade
de prioridade 2 ConNeCTOR
Quantidade de avisos de acessibilidade
de prioridade 3 ConNeCTOR
Quantidade de erros na validação HTML ConNeCTOR Padrões HTML
Tamanho WIRE
Dados quantitativos
Página dinâmica WIRE
Idade WIRE
Tamanho do conteúdo extraído da página WIRE
Grau de entrada WIRE
Grau de saída WIRE
Profundidade WIRE
Desta lista, vale descrever o processo de aquisição dos seguintes atributos:
Status HTTP: obtido da resposta à requisição HTTP GET feita à URL da página. Ele indica se a página estava OK (valores entre 200 e 299) ou não e, em caso negativo se ela está localizada em outro local (valores entre 300 e 399), se ela não pôde ser acessada devido à problema com o servidor (valores de 500 a 599), dentre outros problemas que possam ter ocorrido no processo.
Tipo de documento: obtido pelo validador de páginas do W3C a partir de análise de tag HTML que identifica a versão de HTML em que a página está escrita. Alguns exemplos são: HTML 5, HTML 4.1 Strict, XHTML 1.0 Transitional e XHML1.1.
Tipo MIME: obtido tanto pela resposta à requisição HTTP GET feita à URL da página, quanto pela análise de meta tag contendo o atributo content type existente no cabeçalho da página. Alguns exemplos de tipos são: “text/htm”, “text/htm”, “audio/basic” e “application/pdf”
Erros e avisos de acessibilidade com prioridades de 1 a 3: todos esses indicadores referentes à validação de acessibilidade foram obtidos com o
auxílio do Avaliador e Simulador de Acessibilidade de Sítios (ASES) com a opção de verificação do Modelo de Acessibilidade de Governo Eletrônico (E- MAG)
Página dinâmica: para o WIRE uma página é considerada dinâmica quando sua URL possui o caractere ‘?’, que representa a especificação de parâmetros para que o servidor Web gere o código HTML de resposta.
Idade: obtido a partir do cálculo da diferença entre o valor do cabeçalho last-
modified, da resposta HTTP, e o instante de aquisição da página pelo crawler.
Tamanho do conteúdo extraído da página: esse valor é a contabilização do tamanho da página após a extração de tags HTML ou outros códigos que a página contenha. Ou seja, ele designa o tamanho do conteúdo textual da página.
Grau de entrada: contabilização das páginas que possuem links apontando para esta página.
Grau de saída: contabilização das páginas para as quais esta página possui
links.
Profundidade: indica a menor quantidade de páginas que deve ser percorrida para que se consiga atingir a página em questão a partir da página inicial do site.
Devido a seu volume, esta unidade de pesquisa não foi utilizada para as análises com a aplicação das técnicas de aprendizado de máquina propostas para esta dissertação, os atributos descritos na Tabela Apêndice 5.3 constem de alternativa para a consolidação dos dados na unidade de páginas. Faz-se, no entanto, uma ressalva para o indicador WAB discutido na Seção 3.2 que apesar de sua relevância e aplicabilidade, não pôde ser calculado devido a limitações das ferramentas, incapazes, em seu atual estado, de contabilizar o número potencial de barreiras de uma determinada página.
140 Tabela Apêndice 5.3 - Conjunto de atributos consolidados de páginas que se pretende incluir aos
dados de sites Indicador Ferramenta de extração Conceito Relacionado
Quantidade de páginas OK (HTTP status = 2XX) WIRE
Padrões abertos
Quantidade de redirecionamentos (HTTP status = 3XX) WIRE
Quantidade de erros de requisição (HTTP status = 4XX) WIRE
Quantidade de erros de servidor (HTTP status = 5XX) WIRE
MIME text/html WIRE
MIME text/plain WIRE
MIME application WIRE
MIME outros WIRE
Quantidade de páginas sem erros de prioridade 1 ConNeCTOR
Padrões de acessibilidade
Quantidade média de erros de prioridade 1 por página ConNeCTOR
Quantidade mediana de erros de prioridade 1 por página ConNeCTOR
Quantidade de páginas sem erros de prioridade 2 ConNeCTOR
Quantidade média de erros de prioridade 2 por página ConNeCTOR
Quantidade mediana de erros de prioridade 2 por página ConNeCTOR
Quantidade de páginas sem erros de prioridade 3 ConNeCTOR
Quantidade média de erros de prioridade 3 por página ConNeCTOR
Quantidade mediana de erros de prioridade 3 por página ConNeCTOR
Quantidade de páginas sem avisos de prioridade 1 ConNeCTOR
Quantidade média de avisos de prioridade 1 por página ConNeCTOR
Quantidade mediana de avisos de prioridade 1 por
página ConNeCTOR
Quantidade de páginas sem avisos de prioridade 2 ConNeCTOR
Indicador
Ferramenta de extração
Conceito Relacionado Quantidade mediana de avisos de prioridade 2 por
página ConNeCTOR
Quantidade de páginas sem avisos de prioridade 3 ConNeCTOR
Quantidade média de avisos de prioridade 3 por página ConNeCTOR
Quantidade mediana de avisos de prioridade 3 por
página ConNeCTOR
Quantidade média de erros na validação HTML por
página ConNeCTOR
Padrões HTML
Quantidade mediana de erros na validação HTML por
página ConNeCTOR
Tamanho médio por página WIRE
Dados quantitativos
Tamanho mediano por página WIRE
Idade mediana das páginas WIRE
Profundidade mediana das páginas WIRE