Limpeza e normalização

4.2 Concepção do framework

4.2.3 Limpeza e normalização

Mesmo se tratando de uma fonte de dados "formal", onde os textos utilizados

passaram por revisão gramatical (provavelmente foram revisados durante sua produção e

depois por pares ou bancas antes de serem aprovados em algum evento), é necessário realizar

diferentes processos de limpeza e tratamento dos textos, permitindo uma recuperação de

informação mais eficaz.

4.2.3.1 Limpeza Básica (Passo 4.a)

As entidades HTML são substituídas pelos seus caracteres visuais, iniciando

com a sequência &, que é transformada em &, e depois as entidades no formato

&entidade_nome ou &#entidade_numero pelo representante visual correspondente (por

exemplo, a entidade < ou sua equivalente < é substituída por <). Além disso, é

feita a remoção de todas as pontuações e outros símbolos. Para este trabalho os seguintes

caracteres foram substituídos por espaços: ! " # $ % & ’ ( ) * + , - . / : ; < = >

? @ [ \ ] ^_ ‘ { | } ~.

4.2.3.2 Normalização de palavras (Passo 4.b)

Para este trabalho foi realizada apenas a conversão das letras para minúsculas,

assim as comparações e alterações são facilitadas (como é o caso da substituição das

collocations, discutas adiante, ou agrupamento de palavras no momento da geração dos

tópicos).

4.2.3.3 Tratamento dos bigramas (Passo 4.c)

Fazer a identificação de palavras compostas, ou collocations, ou ainda bigramas,

que são aquelas que ocorrem juntas com frequência (como é o caso de banco dados, raio

x, sistema operacional). São palavras que fazem mais sentido quando estão juntas. Para

este trabalho foi definido que os bigramas serão calculados para todos os documentos

de uma pessoa (unificados), sempre analisando palavras aos pares (também poderiam

ser analisadas em trios ou grupos maiores). Serão utilizados aqueles pares que tiverem

ocorrido um número mínimo de x vezes. O valor mínimo x é calculado da seguinte forma:

x = m + 2 ∗ DP , onde m é a média aritmética simples da quantidade de ocorrências

dos bigramas e DP é o desvio padrão desse conjunto de valores. Após esse filtro inicial,

serão colocadas na ordem decrescente de ocorrência, para que todas sejam substituídas

pela palavra unificada com hífen, nessa ordem (passo 4.c). Cada palavra no texto poderá

participar de apenas uma substituição. Por exemplo, caso a sequência ciência política

tenha ocorrido 30 vezes em todos os documentos de uma pessoa e política internacional

tenha ocorrido 25 vezes, deve-se substituir todas as ocorrências da primeira por ciência-

política e da segunda por política-internacional. Caso encontre em algum documento a

sequência ciência política internacional, levando em consideração a regra que permite a

participação de cada palavra em apenas uma substituição, o trecho ficará ciência-política

internacional, e não ciência-política-internacional. Um passo adicional após substituir as

palavras compostas é remover aquelas que ficaram com tamanho inferior a 3, pois são, em

sua maioria, sem significância. Palavras que contenham número também são removidas,

como datas, URLS, nomes químicos (3-dimetil...), entre outras;

4.2.3.4 Limpeza das palavras desnecessárias globais (Passo 4.d)

Remoção de palavras desnecessárias (ou palavras de ligação), também conhecidas

na literatura por stopwords. Estas são palavras consideradas não relevantes na análise

de textos, justamente por não traduzirem sua essência e normalmente fazem parte desta

lista as preposições, pronomes, artigos, advérbios, e outras classes de palavras auxiliares

(MORAIS; AMBRÓSIO,2007). Outras palavras também podem ser adicionadas à lista,

como aquelas que aparecem com muita frequência, porém não representam um significado

relevante. Considerando o escopo do presente trabalho, a palavra ufsc é recorrente nos

currículos de pesquisadores vinculados a esta instituição e pode ser adicionada a lista de

stopwords. Para este trabalho, algumas listas de stopwords foram unificadas, totalizando

621 palavras (descritas no Apêndice

C).

4.2.3.5 Limpeza individual por currículo (Passo 4.e)

Após a limpeza das palavras desnecessárias globais, que são fixas, é realizada uma

estatística da quantidade de palavras para cada currículo, onde o usuário pode selecionar

entre as mais recorrentes, quais serão removidas dos seus respectivos currículos. Essa

etapa adicional se faz necessária pois podem aparecer palavras específicas do domínio

de atuação da pessoa que não possuem grande significância. Nos casos de professores,

alguns exemplos são projeto, ensino, pesquisa, extensão, entre outras. Essas palavras não

fazem parte daquelas removidas no Passo 4.d anteriores e podem fazer sentido em alguns

currículos, em outros não, por esse motivo a limpeza é individualizada.

4.2.3.6 Limpeza após agrupamento (Passo 4.f)

Quando vários currículos são analisados em conjunto, algumas palavras que não

possuem força contexto no individual, acabam ganhando força maior no conjunto, mas

ainda assim não possuem significado relevante. Neste caso, é feita uma nova rodada

de contagem de palavras e eliminação das mais recorrentes (escolhidas pelo usuário),

mas agora considerando todos os documentos. Por exemplo, a palavra coordenador pode

aparecer poucas vezes nos currículos individuais e não serão eliminadas no Passo 4.e,

mas ao analisar 50 currículos de professores de uma instituição, ela ganha força, mas não

confere significados interessantes para a análise da expertise, portanto deve ser eliminada.

4.2.3.7 Outras considerações

Deve-se notar que a aplicação de (4.2.3.2) pode fazer com que palavras percam

parte do significado (substantivos próprios viram comuns, siglas e acrônimos ficam mais

difíceis de serem reconhecidos) e com (4.2.3.1) palavras compostas (ou siglas pontuadas,

como C.E.S.A.R., P&D) são separadas e só serão unificadas na etapa (4.2.3.3) caso tenham

ocorrências relevantes. São situações onde a semântica da palavra é alterada (ou até

perdida), o que pode gerar resultados com ruídos. Como não é o objetivo deste trabalho

fazer uma análise sobre as técnicas de mineração de textos, esse ponto fica como sugestão

para trabalhos futuros.

Um trabalho mais profundo poderia ser realizado no futuro, como pesquisa de

gírias, verificação gramatical, correção ortográfica, mesmo que esses problemas ocorram

com menor frequência, adicionando ainda a melhoria nos passos (4.2.3.2) e (4.2.3.1).

No documento Exper.te: um framework para identificação temporal da expertise (páginas 50-53)

4.2 Concepção do framework

4.2.3 Limpeza e normalização

Mesmo se tratando de uma fonte de dados "formal", onde os textos utilizados

passaram por revisão gramatical (provavelmente foram revisados durante sua produção e

depois por pares ou bancas antes de serem aprovados em algum evento), é necessário realizar

diferentes processos de limpeza e tratamento dos textos, permitindo uma recuperação de

informação mais eficaz.

4.2.3.1

Limpeza Básica (Passo 4.a)

As entidades HTML são substituídas pelos seus caracteres visuais, iniciando

com a sequência &amp;, que é transformada em &, e depois as entidades no formato

&entidade_nome ou &#entidade_numero pelo representante visual correspondente (por

exemplo, a entidade &lt; ou sua equivalente &#60; é substituída por <). Além disso, é

feita a remoção de todas as pontuações e outros símbolos. Para este trabalho os seguintes

caracteres foram substituídos por espaços: ! " # $ % & ’ ( ) * + , - . / : ; < = >

? @ [ \ ] ^_ ‘ { | } ~.

4.2.3.2

Normalização de palavras (Passo 4.b)

Para este trabalho foi realizada apenas a conversão das letras para minúsculas,

assim as comparações e alterações são facilitadas (como é o caso da substituição das

collocations, discutas adiante, ou agrupamento de palavras no momento da geração dos

tópicos).

4.2.3.3

Tratamento dos bigramas (Passo 4.c)

Fazer a identificação de palavras compostas, ou collocations, ou ainda bigramas,

que são aquelas que ocorrem juntas com frequência (como é o caso de banco dados, raio

x, sistema operacional). São palavras que fazem mais sentido quando estão juntas. Para

este trabalho foi definido que os bigramas serão calculados para todos os documentos

de uma pessoa (unificados), sempre analisando palavras aos pares (também poderiam

ser analisadas em trios ou grupos maiores). Serão utilizados aqueles pares que tiverem

ocorrido um número mínimo de x vezes. O valor mínimo x é calculado da seguinte forma:

x = m + 2 ∗ DP , onde m é a média aritmética simples da quantidade de ocorrências

dos bigramas e DP é o desvio padrão desse conjunto de valores. Após esse filtro inicial,

serão colocadas na ordem decrescente de ocorrência, para que todas sejam substituídas

pela palavra unificada com hífen, nessa ordem (passo 4.c). Cada palavra no texto poderá

participar de apenas uma substituição. Por exemplo, caso a sequência ciência política

tenha ocorrido 30 vezes em todos os documentos de uma pessoa e política internacional

tenha ocorrido 25 vezes, deve-se substituir todas as ocorrências da primeira por ciência-

política e da segunda por política-internacional. Caso encontre em algum documento a

sequência ciência política internacional, levando em consideração a regra que permite a

participação de cada palavra em apenas uma substituição, o trecho ficará ciência-política

internacional, e não ciência-política-internacional. Um passo adicional após substituir as

palavras compostas é remover aquelas que ficaram com tamanho inferior a 3, pois são, em

sua maioria, sem significância. Palavras que contenham número também são removidas,

como datas, URLS, nomes químicos (3-dimetil...), entre outras;

4.2.3.4

Limpeza das palavras desnecessárias globais (Passo 4.d)

Remoção de palavras desnecessárias (ou palavras de ligação), também conhecidas

na literatura por stopwords. Estas são palavras consideradas não relevantes na análise

de textos, justamente por não traduzirem sua essência e normalmente fazem parte desta

lista as preposições, pronomes, artigos, advérbios, e outras classes de palavras auxiliares

(MORAIS; AMBRÓSIO,2007). Outras palavras também podem ser adicionadas à lista,

como aquelas que aparecem com muita frequência, porém não representam um significado

relevante. Considerando o escopo do presente trabalho, a palavra ufsc é recorrente nos

currículos de pesquisadores vinculados a esta instituição e pode ser adicionada a lista de

stopwords. Para este trabalho, algumas listas de stopwords foram unificadas, totalizando

621 palavras (descritas no Apêndice

C).

4.2.3.5

Limpeza individual por currículo (Passo 4.e)

Após a limpeza das palavras desnecessárias globais, que são fixas, é realizada uma

estatística da quantidade de palavras para cada currículo, onde o usuário pode selecionar

entre as mais recorrentes, quais serão removidas dos seus respectivos currículos. Essa

etapa adicional se faz necessária pois podem aparecer palavras específicas do domínio

de atuação da pessoa que não possuem grande significância. Nos casos de professores,

alguns exemplos são projeto, ensino, pesquisa, extensão, entre outras. Essas palavras não

fazem parte daquelas removidas no Passo 4.d anteriores e podem fazer sentido em alguns

currículos, em outros não, por esse motivo a limpeza é individualizada.

4.2.3.6

Limpeza após agrupamento (Passo 4.f)

Quando vários currículos são analisados em conjunto, algumas palavras que não

possuem força contexto no individual, acabam ganhando força maior no conjunto, mas

ainda assim não possuem significado relevante. Neste caso, é feita uma nova rodada

de contagem de palavras e eliminação das mais recorrentes (escolhidas pelo usuário),

mas agora considerando todos os documentos. Por exemplo, a palavra coordenador pode

aparecer poucas vezes nos currículos individuais e não serão eliminadas no Passo 4.e,

mas ao analisar 50 currículos de professores de uma instituição, ela ganha força, mas não

confere significados interessantes para a análise da expertise, portanto deve ser eliminada.

4.2.3.7

com a sequência &, que é transformada em &, e depois as entidades no formato

exemplo, a entidade < ou sua equivalente < é substituída por <). Além disso, é