DEFINIC ¸ ˜ OES B ´ ASICAS - Algoritmo não supervisionado para segmentação e remoção de ruído d

Nesta se¸cão são apresentados os conceitos e defini¸cões necessários para o entendimento do problema e do algoritmo proposto. As defini¸cões são exemplificadas com o aux´ılio da Figura 2.

Defini¸cão 1 ( Árvore DOM) . A árvore DOM (Document Object Model) é uma estrutura hierárquica, derivada do código HTML, que representa uma página web. Cada nó desta árvore representa um “ob- jeto” do documento HTML. A especifica¸cão de referência é mantida pelo consórcio W 3C (W3C, 2005) que é o órgão encarregado de manter os padrões e especifica¸cões da web.

Exemplo. Na Figura 2 um pequeno trecho de código HTML é utilizado para ilustrar como uma árvore DOM é constru´ıda a partir do código. Defini¸cão 2 (tag paths) . Um tag path (TP) é uma string descrevendo o caminho absoluto, a partir da raiz da árvore DOM, até um dado nó da árvore. Seja “ni” um determinado nó da árvore DOM,

onde “i” representa a posi¸c˜ao/ordem, em profundidade, do n´o “ni” na

arvore, então é dito que T Pié a string descrevendo o caminho, a partir

Exemplo. Na Figura 2, o caminho absoluto T P4 do n´o body at´e a

c´elula da tabela td4´e T P4= “body/table/tr/td”.

Defini¸cão 3 (Sequência de tag paths) . Uma sequência de tag paths (TPS) de uma árvore DOM com “n” nós é definida como sendo a sequência ordenada T P S[1..n] = (T P1, T P2, T P3, ..., T Pn−1, T Pn) onde

dois tag paths T Pi e T Pj, com i 6= j, s˜ao considerados iguais apenas

se seus caminhos e suas defini¸cões de estilo são iguais, caso contrário eles são considerados diferentes.

Exemplo. Na Figura 2 é mostrada a T P S de um dado trecho de código HTML, onde cada T P recebe um código, produzindo T P S = (1, 2, 3, 4, 4, 3, 4, 4). Na sequência de tag paths os tag paths não são re- presentados pelas suas strings, mas sim por códigos (ou s´ımbolos), com objetivo de facilitar sua manipula¸cão, onde tag paths iguais recebem o mesmo código. Esta defini¸cão é similar à utilizada em Xie et al. (2012), onde cada tag path é representado na sequência por um s´ımbolo, ex- ceto que neste trabalho foram incorporadas as defini¸cões de estilo das tags. Como as defini¸cões CSS são utilizadas para diferenciar e caracte- rizar as diversas regiões de uma página, é muito importante levar em considera¸cão essas defini¸cões na momento de segmentar a página. Defini¸cão 4 (Alfabeto da TPS) . Seja Σ o conjunto contendo todos os s´ımbolos de uma dada sequência T P S de tamanho “n”, Σ é dito o alfabeto de T P S definido como Σ = {α|T P S[i] = α ∧ 1 ≤ i ≤ n}, onde α é um s´ımbolo do alfabeto.

Exemplo. Na Figura 2, a T P S é formada apenas pelos s´ımbolos “1”,“2”, “3” e “4”, então seu alfabeto é Σ = {1, 2, 3, 4}. Informal- mente falando, o alfabeto contém todos os s´ımbolos distintos de uma determinada sequência.

Defini¸cão 5 (Conjunto de frequências de tag paths) . Seja (s, f ) um par ordenado onde “s” é um s´ımbolo de um alfabeto de uma determinada TPS e “f ” é o número de vezes que o s´ımbolo “s” ocorre nesta TPS, então o conjunto de frequências F S de uma TPS é definido como sendo o conjunto de todos os pares (s, f ) existentes nesta TPS, ou seja F S = {(s1, fs1), (s2, fs2), (s3, fs3), . . . , (sn−1, fsn−1), (sn, fsn)},

onde “n”´e o tamanho do alfabeto da TPS.

Exemplo. Na Figura 2, o s´ımbolo “1” ocorre uma vez na sequência, o s´ımbolo “2” ocorre uma vez também, o s´ımbolo “3” duas vezes e o s´ımbolo “4” quatro vezes, então para esta sequência F S =

{(1, 1), (2, 1), (3, 2), (4, 4)}. O conjunto F S é o mapeamento de todos os s´ımbolos de uma sequência para suas respectivas frequências.

Defini¸cão 6 (Limiares de frequência) . Dada uma T P S com alfabeto Σ e conjunto de frequências F S, os limiares de frequência F T são definidos como sendo a sequência ordenada contendo apenas as frequências distintas de F S. Assim, temos que F T = {f |∃(s, f ) ∧ (s, f ) ∈ F S ∧ s ∈ Σ}, onde “s” é um s´ımbolo do alfabeto Σ e “f ” é sua respectiva frequência.

Exemplo. Na TPS exibida na Figura 2, o conjunto de frequências dos tag paths é F S = {(1, 1), (2, 1), (3, 2), (4, 4)}. Neste caso, o conjunto dos limiares de frequência é igual a F T = {1, 2, 4}, pois os s´ımbolos “1” e “2” tem frequência igual a 1, o s´ımbolo “3” tem frequência igual a 2 e o s´ımbolo “4” tem frequência igual a 4. O conjunto F T é necessário para filtrar os s´ımbolos da TPS. Se F T = {1, 2, 4}, então não faria sentido filtrar s´ımbolos com frequência igual a 3, pois não existem s´ımbolos na sequência com esta frequência.

Defini¸cão 7 (Região) . Seja uma TPS a concatena¸cão de duas outras sequências T P S = T P Sa.T P Sb, então é dito que T P Sa e T P Sb

s˜ao regi˜oes de T P S, sse Σa∩ Σb= ∅.

Exemplo. Na Figura 2 a TPS pode ser dividida em duas subsequˆencias T P Sa = T P S[1..2] = (1, 2) e T P Sb= T P S[3..8] = (3, 4, 4, 3, 4, 4), com

alfabetos Σa = {1, 2} e Σb = {3, 4}, então T P Sa a T P Sb são regiões

distintas de T P S, pois a interseçcão de seus respectivos alfabetos é vazia.

3.3 PROPOSTA

No presente trabalho é proposto um novo algoritmo para segmenta¸cão das regiões de uma página web e identifica¸cão da região principal. O algoritmo proposto leva em considera¸cão a estrutura e o estilo de formata¸cão das páginas e é computacionalmente eficiente pois, con- forme demonstrado mais adiante, na Se¸cão 3.5, sua complexidade é, na média, linear em rela¸cão ao tamanho da página. A página web, que é submetida ao algoritmo, é representada como uma sequência de tag paths. O algoritmo proposto é formulado a partir de duas hipóteses:

1. diferentes regiões de uma página web são descritas por diferentes tag paths;

A formula¸cão da hipótese 1 vem da observa¸cão de que as várias regiões de uma página web são diferentes ramifica¸cões da árvore DOM e essas regiões são descritas ou utilizando tags distintas para cada região ou, se as tags forem semelhantes, com diferentes estilos, para que cada região possa ser facilmente distinguida pelo usuário/leitor da página. Se todas as regiões de uma página se parecessem, seria mais dif´ıcil, para o usuário, distingui-las. Então, pela Defini¸cão 3, pode-se notar que os s´ımbolos utilizados em cada região de uma página web deveriam ser diferentes, e então deve ser poss´ıvel segmentar a página como apresentado na Defini¸cão 7. Esta hipótese, como é poss´ıvel observar, é geral o suficiente para poder ser reutilizada em outros contextos, com objetivo de segmentar páginas web, que não o de extra¸cão estruturada. 2. em sites com conteúdo estruturado, a região principal é mais

densa/maior que as demais regiões (menus, anúncios, texto, etc.). A hipótese 2 vem do contexto no qual a segmenta¸cão proposta neste trabalho é aplicada (i.e. extra¸cão estruturada). Como se está considerando apenas páginas com registros, e para descrever a estrutura desses registros são necessários nós da árvore DOM, então são necessários mais nós para descrever conteúdo estruturado do que é necessário para conteúdo não estruturado (e.g. texto). Portanto, é razoável assumir que, para páginas que contêm registros, a região principal da página é a maior de todas (i.e. a que contém mais nós).

Utilizando as defini¸cões da Se¸cão 3.2 e as hipóteses acima, podemos formular o problema de segmenta¸cão de páginas e identifica¸cão da região principal como: “encontrar a maior região da T P S de uma página web que possua um alf abeto que não se intersecte com o alf abeto de outras regiões menores”.

Um detalhe crucial que deve ser levado em considera¸cão, é que podem existir tag paths em um documento que representam divisões estruturais da página (i.e. formata¸cão visual da página). Estes tag paths, se forem divisões, ocorrerão ao longo de toda a T P S, impedindo a identifica¸cão das regiões, pois sempre haverá uma interseçcão dos alfabetos. Para remover este “ru´ıdo” da sequência, podemos filtrar os s´ımbolos com frequências mais baixas, sem prejudicar o processo de segmenta¸cão, pois os s´ımbolos com frequências mais altas continuam

sendo considerados. Para ilustrar este procedimento, é apresentado um exemplo de uma página web na Listagem 3.1 que inicia e termina com o mesmo tag path (“/body/br”, Linhas 2 e 18) e tem três regiões delimi- tadas, também, pelo mesmo tag path (“/body/div”, Linhas 3, 8 e 13). Partindo da hipótese 1, em que diferentes tag paths são utilizados para descrever cada região, sem filtrar os s´ımbolos de baixa frequência da T P S, não seria poss´ıvel identificar essas regiões utilizando o algoritmo proposto. Listagem 3.1 – Código HTML 1 <body> 2 <br> < !−− c a b e ¸c a l h o −−> 3 <div> < !−− menu −−> 4 <span c l a s s =’ r e g i o n 1 ’> . . . </span> 5 . . . 6 <span c l a s s =’ r e g i o n 1 ’> . . . </span> 7 </ div> 8 <div> < !−− r e g i ã o p r i n c i p a l −−> 9 <span c l a s s =’ r e g i o n 2 ’> . . . </span> 10 . . . 11 <span c l a s s =’ r e g i o n 2 ’> . . . </span> 12 </ div> 13 <div> < !−− p u b l i c i d a d e −−> 14 <span c l a s s =’ r e g i o n 3 ’> . . . </span> 15 . . . 16 <span c l a s s =’ r e g i o n 3 ’> . . . </span> 17 </ div> 18 <br> < !−− r o d a pé −−> 19 </body>

A TPS, do código HTML apresentado na Listagem 3.1, é T P S = (1, 2, 3, 4, ..., 4, 3, 5, ..., 5, 3, 6, ..., 6, 2). Como os s´ımbolos 2 e 3 ocorrem ao longo de toda a sequência, os alfabetos das regiões de menus, publicidade e da região principal, sempre terão uma interseçcão. Porém, considerando agora, para fins ilustrativos, apenas os s´ımbolos com frequência maior que 3, durante o processo de segmenta¸cão é poss´ıvel encontrar as regiões com alfabetos distintos (sem interseçcões) e dividir a T P S da seguinte maneira:

T P Sf iltrada = (, , , 4, ..., 4, , 5, ..., 5, , 6, ..., 6, ) menus = (4, ..., 4)

principal = (5, ..., 5) publicidade = (6, ..., 6)

Neste exemplo, estipulamos uma determinada frequência apenas para ilustrar qual o objetivo deste procedimento. Entretanto, no algoritmo searchRegion(), a filtragem, de fato, é realizada iterativamente. Cada frequência é “testada” até que seja poss´ıvel localizar um ponto para dividir a sequência.

3.4 ALGORITMOS

Nesta se¸cão, são apresentados os algoritmos desenvolvidos para tratar o problema definido na Se¸cão 3.3. Eles são os seguintes:

• tagP athSequenceF ilter() é o algoritmo de n´ıvel mais alto, que recebe um arquivo HTML como entrada, chama os demais algoritmos e retorna uma árvore DOM, podada, apenas com o conteúdo da região principal;

• convertT oSeq() converte a árvore DOM de uma página web para sua representa¸cão T P S;

• searchRegion() ´e o algoritmo principal, que realiza a busca, propriamente dita, pela regi˜ao principal da T P S;

• f ilterAlphabet() filtra um alfabeto, removendo os s´ımbolos de menor frequˆencia, tornando o algoritmo de busca mais robusto e resistente ao ru´ıdo;

• pruneDOM T ree() poda a árvore DOM original, dei- xando apenas o conteúdo da região principal encontrado com searchRegion, mantendo a estrutura do documento original.

A Figura 3 apresenta uma vis˜ao de alto n´ıvel da intera¸c˜ao exis- tente entre os algoritmos desenvolvidos no presente trabalho, com o algoritmo principal (searchRegion) destacado.

3.4.1 Algoritmo de tagP athSequenceF ilter()

Algoritmo 1 Filtra o ru´ıdo de uma p´agina web Input: inputF ile - um arquivo HTML

Output: ´arvore DOM de inputF ile podada

1: _{procedure tagPathSequenceFilter(inputF ile)} 2: DOM T ree ← parseHT M L(inputF ile)

3: convertT oSeq(DOM T ree.body,“ ”, T P S) . “ ” = string vazia

4: searchRegion(T P S)

5: pruneDOM T ree(DOM T ree.body, T P S)

6: return DOM T ree

7: end procedure

O procedimento tagP athSequenceF ilter() no Algoritmo 1 retorna a região principal de inputF ile. O procedimento parseHT M L(), na Linha 2, converte o código HTML em uma árvore DOM; convertTo- Seq(), na Linha 3, converte a árvore DOM em uma TPS; o procedimento searchRegion(), na Linha 4, procura recursivamente pela maior região da TPS que possui um alfabeto único e, finalmente; pruneDOM T ree(), na Linha 5, retira da árvore DOM (poda) todos os nós que não fazem parte da TPS resultante, preservando a estrutura do documento retor- nado na Linha 6.

Em seguida são detalhados os algoritmos convertT oSeq(), searchRegion(), f ilterAlphabet() e pruneDOM T ree(). O algoritmo parseHT M L(), que consiste em gerar a árvore DOM a partir do código HTML, não faz parte do escopo deste trabalho e, portanto, não é dis- cutido aqui.

3.4.2 Algoritmo de convertT oSeq()

O procedimento convertT oSeq() no Algoritmo 2 converte uma página web de sua representa¸cão em árvore DOM para uma representa¸cão em formato TPS, percorrendo a árvore DOM em profundidade. Inicialmente é chamado no Algoritmo 1 com um tag path vazio como parâmetro, que representa a string do tag path anterior (i.e. da

Algoritmo 2 Converte uma árvore DOM para a representa¸cão de sequência de tag path

Input: node - um nó da árvore DOM, inicialmente a raiz da árvore Input: tp - o tag path anterior, inicialmente vazio

Input: T P S - a T P S de uma ´arvore DOM, inicialmente vazia Output: a T P S de uma ´arvore DOM armazenada em T P S

1: _{procedure convertToSeq(node,tp,TPS by ref.)} 2: tp ← concat(tp,“/”, node.tag, node.style)

3: if tp 3 tagP athM ap then

4: tagP athM ap ← tagP athM ap + {tp}

5: tagP athM ap[tp].code ← tagP athM ap.size 6: end if

7: T P S ← concat(T P S, tagP athM ap[tp].code);

8: for each child of node do

9: convertT oSeq(child, tp, T P S)

10: end for

11: end procedure

chamada recursiva anterior). Na Linha 2, o tag path anterior é concatenado com a tag atual e com suas defini¸cões de estilo, com objetivo de distinguir caminhos repetidos com estilos diferentes; na Linha 3, é verificado se o tag path atual já foi visto antes pelo algoritmo ou não (tagP athM ap é utilizado para este propósito) e, se não, na Linha 4, ele ´

e inserido no conjunto tagP athM ap e um novo código é atribu´ıdo a ele na Linha 5, como mostrado na Defini¸cão 3; na Linha 7, o código do tag path é concatenado ao final da sequência e, finalmente, o procedimento ´

e invocado recursivamente na Linha 9 para cara filho de node.

3.4.3 Algoritmo de searchRegion()

Este é o algoritmo central, já que é responsável por encontrar a região principal e, para facilitar seu entendimento, foi inclu´ıda uma ilustra¸cão do seu funcionamento (a Figura 4). Ela apresenta uma ilustra¸cão da execu¸cão do algoritmo excluindo o procedimento de filtragem dos s´ımbolos com baixas frequências para maior clareza, pois a inten¸cão ´

e passar a idéia principal. Na Figura 4 estão representadas as várias itera¸cões feitas em cima da sequência até o ponto em que a região principal é localizada. Em cada itera¸cão, o cursor percorre as posi¸cões da sequência e verifica, em cada posi¸cão, se não há interseçcão entre os

alfabetos das subsequências “a” e “b” e, neste caso, inicia uma nova itera¸cão em cima da maior subsequência resultante, até que esta não possa mais ser subdividida, situa¸cão em que a região principal foi localizada. Uma descri¸cão detalhada é apresentada para a listagem do algoritmo.

Algoritmo 3 Busca regi˜oes da TPS com alfabetos diferentes

Entrada: tagP athSequence - a T P S de uma determinada p´agina web Sa´ıda: a regi˜ao principal da T P S, armazenada em tagP athSequence

1: procedure searchRegion(tagP athSequence[1..n] by reference)

2: Σ ← ∅ . alfabeto da sequˆencia

3: t ← 0 . ´ındice dos limiares de frequˆencia

4: for i ← 1..n do

5: sym ← tagP athSequence[i] 6: if sym 3 Σ then 7: Σ ← Σ ∪ {sym} 8: symCount[sym] ← 0 9: end if 10: symCount[sym] ← symCount[sym] + 1 11: end for

12: thresholds ← OrderedSetOf F requencies(symCount) 13: regionF ound ← f alse

14: while not regionF ound do 15: t ← t + 1

16: currΣ ← f ilterAlphabet(Σ, symCount, thresholds[t]) 17: if currΣ.size < 2 then 18: break 19: end if 20: currSymCount ← symCount 21: regionΣ ← ∅ 22: for i ← 1..n do

23: sym ← tagP athSequence[i] 24: if sym ∈ currΣ then

25: regionΣ ← regionΣ ∪ {sym}

26: currSymCount[sym] ← currSymCount[sym] − 1 27: if currSymCount[sym] = 0 then

28: currΣ ← currΣ − {sym}

29: if currΣ ∩ regionΣ = ∅ then

30: if (currΣ 6= ∅) ∧ (n − 2i)/n > 0.20 then

31: regionF ound ← true

32: end if 33: break 34: end if 35: end if 36: end if 37: end for 38: end while

39: if regionF ound then 40: if i < n/2 then

41: tagP athSequence ← tagP athSequence[i + 1..n]

42: else

43: tagP athSequence ← tagP athSequence[1..i]

44: end if

45: searchRegion(tagP athSequence) 46: end if

O procedimento searchRegion() no Algoritmo 3 calcula o alfabeto da TPS e as frequências correspondentes de cada s´ımbolo nas Linhas 4 a 11; na Linha 12, os limiares de frequência, como especificado na Defini¸cão 6, são calculados; nas Linhas 14 a 38 é realizada a busca por uma posi¸cão na sequência onde é poss´ıvel dividi-la (i.e. onde existe uma região); na Linha 15 os limiares de frequência são iterados; na Li- nha 16 o alfabeto da TPS, da Defini¸cão 4, é filtrado, como descrito na Subse¸cão 3.4.4; na Linha 22 a TPS é iterada; na Linha 25 o alfabeto da região é calculado e; nas Linhas 27 a 35 é verificado se existe uma inter- seçcão entre os alfabetos das duas partes da TPS (uma interseçcão vazia indica que uma poss´ıvel região foi encontrada, como na Defini¸cão 7). A região encontrada só é considerada válida se for ao menos 20% maior que o restante da sequência. Caso contrário, o filtro de frequência é ite- rado e a busca prossegue. Este percentual é, na verdade, um parâmetro com o propósito de evitar relatar uma região sob condi¸cões amb´ıguas (nos experimentos foi utilizado o valor de 20%); finalmente nas Linhas 39 a 46 a TPS é dividida se uma região foi encontrada, chamando o procedimento searchRegion() recursivamente na Linha 45.

3.4.4 Algoritmo de f ilterAlphabet()

Algoritmo 4 Filtra s´ımbolos de baixa frequˆencia no alfabeto Input: Σ - alfabeto a ser filtrado

Input: symCount - conjunto das frequˆencias (F S) dos s´ımbolos de Σ Input: threshold - limiar de frequˆencia

Output: alfabeto filtrado

1: _{procedure filterAlphabet(Σ, symCount, threshold)} 2: f ilteredΣ ← ∅

3: for i ← 1..n do

4: if symCount[Σ[i]] ≥ threshold then

5: f ilteredΣ ← f ilteredΣ ∪ {Σ[i]}

6: end if

7: end for

8: return f ilteredΣ

9: end procedure

O procedimento f ilterAlphabet() no Algoritmo 4 remove do alfabeto Σ, todo s´ımbolo com frequˆencia inferior a threshold. Nas Linhas 3 to 7 apenas os s´ımbolos com frequˆencia maior ou igual a threshold

são inseridos no conjunto resultante. O resultado de f ilterAlphabet() é utilizado no Algoritmo 3, Linha 24, onde apenas os s´ımbolos em currΣ são considerados durante a busca pela região principal.

3.4.5 Algoritmo de pruneDOM T ree()

Algoritmo 5 Poda da árvore DOM (nós que não pertencem à sequência)

Input: node - um nó da árvore DOM, inicialmente a raiz Input: sequence - a TPS que deve permanecer na árvore DOM Output: árvore DOM podada, referenciada em node

1: _{procedure pruneDOMTree(node by ref.,sequence)} 2: for each child of node do

3: if pruneDOM T ree(child, sequence) = true then

4: remove child from node

5: end if

6: end for

7: if node 3 sequence and node.childCount = 0 then

8: return true

9: end if

10: return f alse

11: end procedure

O procedimento pruneDOM T ree() no Algoritmo 5 percorre a ´

arvore DOM em profundidade removendo os nós que não pertencem a sequence. Na Linha 3 a árvore DOM é percorrida; nas Linhas 7 a 9 é decidido se o nó node deve ser removido ou não.

Um nó é removido da árvore apenas se ele não está em sequence e não tem nenhum filho. Ao evitar a exclusão de nós internos da ´

arvore que ainda possuem filhos, mesmo quando estes nós internos não pertencem à sequência, é poss´ıvel manter a estrutura da árvore rema- nescente intacta, evitando afetar, negativamente, a etapa subsequente de extra¸cão estruturada.

No documento Algoritmo não supervisionado para segmentação e remoção de ruído de páginas web utilizando tag paths (páginas 38-49)