• Nenhum resultado encontrado

APÊNDICE 5 ESPECIFICAÇÃO DE INDICADORES

5.3 INDICADORES DE PÁGINAS

A unidade de pesquisa página é identificada pela própria URL da página, e.g., “http://www.exemplo.com.br/local/pagina”. Esse atributo serve também para a diferenciação entre páginas dinâmicas e estáticas, considerando, para tanto, a extensão do documento referenciado e a existência de parâmetros HTTP embutidos na URL. Outra aplicação para essa variável é a identificação do tipo de linguagem na qual a página foi codificada, também defina pela extensão do documento por ela referenciada.

Os atributos avaliados para esta unidade de pesquisa estão listados na Tabela Apêndice 5.2. Para facilitar seu entendimento, eles foram relacionados tanto a seus respectivos conceitos correlatos, de acordo com o explicitado nos Capítulos 0 e 1 do corpo principal desta monografia, quanto às ferramentas responsáveis por obtê-los, conforme será apresento no Apêndice 6.

Tabela Apêndice 5.2 – Conjunto de indicadores analisados pelo projeto TIC Web para a unidade de pesquisa página.

Indicador Ferramenta de extração Relacionado Conceito

Nome do site WIRE

Padrões abertos

Nome da página WIRE

Status HTTP WIRE

Tipo do documento ConNeCTOR

Tipo MIME WIRE

Quantidade de erros de acessibilidade de

prioridade 1 ConNeCTOR

Padrões de acessibilidade Quantidade de erros de acessibilidade de

prioridade 2 ConNeCTOR

Quantidade de erros de acessibilidade de

prioridade 3 ConNeCTOR

Quantidade de avisos de acessibilidade

138

Indicador Ferramenta de extração Conceito

Relacionado Quantidade de avisos de acessibilidade

de prioridade 2 ConNeCTOR

Quantidade de avisos de acessibilidade

de prioridade 3 ConNeCTOR

Quantidade de erros na validação HTML ConNeCTOR Padrões HTML

Tamanho WIRE

Dados quantitativos

Página dinâmica WIRE

Idade WIRE

Tamanho do conteúdo extraído da página WIRE

Grau de entrada WIRE

Grau de saída WIRE

Profundidade WIRE

Desta lista, vale descrever o processo de aquisição dos seguintes atributos:

Status HTTP: obtido da resposta à requisição HTTP GET feita à URL da página. Ele indica se a página estava OK (valores entre 200 e 299) ou não e, em caso negativo se ela está localizada em outro local (valores entre 300 e 399), se ela não pôde ser acessada devido à problema com o servidor (valores de 500 a 599), dentre outros problemas que possam ter ocorrido no processo.

Tipo de documento: obtido pelo validador de páginas do W3C a partir de análise de tag HTML que identifica a versão de HTML em que a página está escrita. Alguns exemplos são: HTML 5, HTML 4.1 Strict, XHTML 1.0 Transitional e XHML1.1.

Tipo MIME: obtido tanto pela resposta à requisição HTTP GET feita à URL da página, quanto pela análise de meta tag contendo o atributo content type existente no cabeçalho da página. Alguns exemplos de tipos são: “text/htm”, “text/htm”, “audio/basic” e “application/pdf”

Erros e avisos de acessibilidade com prioridades de 1 a 3: todos esses indicadores referentes à validação de acessibilidade foram obtidos com o

auxílio do Avaliador e Simulador de Acessibilidade de Sítios (ASES) com a opção de verificação do Modelo de Acessibilidade de Governo Eletrônico (E- MAG)

Página dinâmica: para o WIRE uma página é considerada dinâmica quando sua URL possui o caractere ‘?’, que representa a especificação de parâmetros para que o servidor Web gere o código HTML de resposta.

Idade: obtido a partir do cálculo da diferença entre o valor do cabeçalho last-

modified, da resposta HTTP, e o instante de aquisição da página pelo crawler.

Tamanho do conteúdo extraído da página: esse valor é a contabilização do tamanho da página após a extração de tags HTML ou outros códigos que a página contenha. Ou seja, ele designa o tamanho do conteúdo textual da página.

Grau de entrada: contabilização das páginas que possuem links apontando para esta página.

Grau de saída: contabilização das páginas para as quais esta página possui

links.

Profundidade: indica a menor quantidade de páginas que deve ser percorrida para que se consiga atingir a página em questão a partir da página inicial do site.

Devido a seu volume, esta unidade de pesquisa não foi utilizada para as análises com a aplicação das técnicas de aprendizado de máquina propostas para esta dissertação, os atributos descritos na Tabela Apêndice 5.3 constem de alternativa para a consolidação dos dados na unidade de páginas. Faz-se, no entanto, uma ressalva para o indicador WAB discutido na Seção 3.2 que apesar de sua relevância e aplicabilidade, não pôde ser calculado devido a limitações das ferramentas, incapazes, em seu atual estado, de contabilizar o número potencial de barreiras de uma determinada página.

140 Tabela Apêndice 5.3 - Conjunto de atributos consolidados de páginas que se pretende incluir aos

dados de sites Indicador Ferramenta de extração Conceito Relacionado

Quantidade de páginas OK (HTTP status = 2XX) WIRE

Padrões abertos

Quantidade de redirecionamentos (HTTP status = 3XX) WIRE

Quantidade de erros de requisição (HTTP status = 4XX) WIRE

Quantidade de erros de servidor (HTTP status = 5XX) WIRE

MIME text/html WIRE

MIME text/plain WIRE

MIME application WIRE

MIME outros WIRE

Quantidade de páginas sem erros de prioridade 1 ConNeCTOR

Padrões de acessibilidade

Quantidade média de erros de prioridade 1 por página ConNeCTOR

Quantidade mediana de erros de prioridade 1 por página ConNeCTOR

Quantidade de páginas sem erros de prioridade 2 ConNeCTOR

Quantidade média de erros de prioridade 2 por página ConNeCTOR

Quantidade mediana de erros de prioridade 2 por página ConNeCTOR

Quantidade de páginas sem erros de prioridade 3 ConNeCTOR

Quantidade média de erros de prioridade 3 por página ConNeCTOR

Quantidade mediana de erros de prioridade 3 por página ConNeCTOR

Quantidade de páginas sem avisos de prioridade 1 ConNeCTOR

Quantidade média de avisos de prioridade 1 por página ConNeCTOR

Quantidade mediana de avisos de prioridade 1 por

página ConNeCTOR

Quantidade de páginas sem avisos de prioridade 2 ConNeCTOR

Indicador

Ferramenta de extração

Conceito Relacionado Quantidade mediana de avisos de prioridade 2 por

página ConNeCTOR

Quantidade de páginas sem avisos de prioridade 3 ConNeCTOR

Quantidade média de avisos de prioridade 3 por página ConNeCTOR

Quantidade mediana de avisos de prioridade 3 por

página ConNeCTOR

Quantidade média de erros na validação HTML por

página ConNeCTOR

Padrões HTML

Quantidade mediana de erros na validação HTML por

página ConNeCTOR

Tamanho médio por página WIRE

Dados quantitativos

Tamanho mediano por página WIRE

Idade mediana das páginas WIRE

Profundidade mediana das páginas WIRE