4.2 Concepção do framework
4.2.3 Limpeza e normalização
Mesmo se tratando de uma fonte de dados "formal", onde os textos utilizados
passaram por revisão gramatical (provavelmente foram revisados durante sua produção e
depois por pares ou bancas antes de serem aprovados em algum evento), é necessário realizar
diferentes processos de limpeza e tratamento dos textos, permitindo uma recuperação de
informação mais eficaz.
4.2.3.1
Limpeza Básica (Passo 4.a)
As entidades HTML são substituídas pelos seus caracteres visuais, iniciando
com a sequência &, que é transformada em &, e depois as entidades no formato
&entidade_nome ou &#entidade_numero pelo representante visual correspondente (por
exemplo, a entidade < ou sua equivalente < é substituída por <). Além disso, é
feita a remoção de todas as pontuações e outros símbolos. Para este trabalho os seguintes
caracteres foram substituídos por espaços: ! " # $ % & ’ ( ) * + , - . / : ; < = >
? @ [ \ ] ^_ ‘ { | } ~.
4.2.3.2
Normalização de palavras (Passo 4.b)
Para este trabalho foi realizada apenas a conversão das letras para minúsculas,
assim as comparações e alterações são facilitadas (como é o caso da substituição das
collocations, discutas adiante, ou agrupamento de palavras no momento da geração dos
tópicos).
4.2.3.3
Tratamento dos bigramas (Passo 4.c)
Fazer a identificação de palavras compostas, ou collocations, ou ainda bigramas,
que são aquelas que ocorrem juntas com frequência (como é o caso de banco dados, raio
x, sistema operacional). São palavras que fazem mais sentido quando estão juntas. Para
este trabalho foi definido que os bigramas serão calculados para todos os documentos
de uma pessoa (unificados), sempre analisando palavras aos pares (também poderiam
ser analisadas em trios ou grupos maiores). Serão utilizados aqueles pares que tiverem
ocorrido um número mínimo de x vezes. O valor mínimo x é calculado da seguinte forma:
x = m + 2 ∗ DP , onde m é a média aritmética simples da quantidade de ocorrências
dos bigramas e DP é o desvio padrão desse conjunto de valores. Após esse filtro inicial,
serão colocadas na ordem decrescente de ocorrência, para que todas sejam substituídas
pela palavra unificada com hífen, nessa ordem (passo 4.c). Cada palavra no texto poderá
participar de apenas uma substituição. Por exemplo, caso a sequência ciência política
tenha ocorrido 30 vezes em todos os documentos de uma pessoa e política internacional
tenha ocorrido 25 vezes, deve-se substituir todas as ocorrências da primeira por ciência-
política e da segunda por política-internacional. Caso encontre em algum documento a
sequência ciência política internacional, levando em consideração a regra que permite a
participação de cada palavra em apenas uma substituição, o trecho ficará ciência-política
internacional, e não ciência-política-internacional. Um passo adicional após substituir as
palavras compostas é remover aquelas que ficaram com tamanho inferior a 3, pois são, em
sua maioria, sem significância. Palavras que contenham número também são removidas,
como datas, URLS, nomes químicos (3-dimetil...), entre outras;
4.2.3.4
Limpeza das palavras desnecessárias globais (Passo 4.d)
Remoção de palavras desnecessárias (ou palavras de ligação), também conhecidas
na literatura por stopwords. Estas são palavras consideradas não relevantes na análise
de textos, justamente por não traduzirem sua essência e normalmente fazem parte desta
lista as preposições, pronomes, artigos, advérbios, e outras classes de palavras auxiliares
(MORAIS; AMBRÓSIO,2007). Outras palavras também podem ser adicionadas à lista,
como aquelas que aparecem com muita frequência, porém não representam um significado
relevante. Considerando o escopo do presente trabalho, a palavra ufsc é recorrente nos
currículos de pesquisadores vinculados a esta instituição e pode ser adicionada a lista de
stopwords. Para este trabalho, algumas listas de stopwords foram unificadas, totalizando
621 palavras (descritas no Apêndice
C).
4.2.3.5
Limpeza individual por currículo (Passo 4.e)
Após a limpeza das palavras desnecessárias globais, que são fixas, é realizada uma
estatística da quantidade de palavras para cada currículo, onde o usuário pode selecionar
entre as mais recorrentes, quais serão removidas dos seus respectivos currículos. Essa
etapa adicional se faz necessária pois podem aparecer palavras específicas do domínio
de atuação da pessoa que não possuem grande significância. Nos casos de professores,
alguns exemplos são projeto, ensino, pesquisa, extensão, entre outras. Essas palavras não
fazem parte daquelas removidas no Passo 4.d anteriores e podem fazer sentido em alguns
currículos, em outros não, por esse motivo a limpeza é individualizada.
4.2.3.6
Limpeza após agrupamento (Passo 4.f)
Quando vários currículos são analisados em conjunto, algumas palavras que não
possuem força contexto no individual, acabam ganhando força maior no conjunto, mas
ainda assim não possuem significado relevante. Neste caso, é feita uma nova rodada
de contagem de palavras e eliminação das mais recorrentes (escolhidas pelo usuário),
mas agora considerando todos os documentos. Por exemplo, a palavra coordenador pode
aparecer poucas vezes nos currículos individuais e não serão eliminadas no Passo 4.e,
mas ao analisar 50 currículos de professores de uma instituição, ela ganha força, mas não
confere significados interessantes para a análise da expertise, portanto deve ser eliminada.
4.2.3.7
Outras considerações
Deve-se notar que a aplicação de (4.2.3.2) pode fazer com que palavras percam
parte do significado (substantivos próprios viram comuns, siglas e acrônimos ficam mais
difíceis de serem reconhecidos) e com (4.2.3.1) palavras compostas (ou siglas pontuadas,
como C.E.S.A.R., P&D) são separadas e só serão unificadas na etapa (4.2.3.3) caso tenham
ocorrências relevantes. São situações onde a semântica da palavra é alterada (ou até
perdida), o que pode gerar resultados com ruídos. Como não é o objetivo deste trabalho
fazer uma análise sobre as técnicas de mineração de textos, esse ponto fica como sugestão
para trabalhos futuros.
Um trabalho mais profundo poderia ser realizado no futuro, como pesquisa de
gírias, verificação gramatical, correção ortográfica, mesmo que esses problemas ocorram
com menor frequência, adicionando ainda a melhoria nos passos (4.2.3.2) e (4.2.3.1).
No documento
Exper.te: um framework para identificação temporal da expertise
(páginas 50-53)