• Nenhum resultado encontrado

3 METODOLOGIA

3.5 METODOLOGIA DA MINERAÇÃO DE TEXTO

O carácter interdisciplinar já citado neste estudo é reforçado por van Dijk (2010) quando ressalta não existir na ACD apenas um método ou tipo de análise para proceder esse tipo de pesquisa. O autor cita como exemplo, de acordo com o objetivo do estudo, a escolha das formas de avaliar diferentes estruturas e estratégias discursivas:

Análise gramatical (fonológica, sintática, lexical, semântica); análise pragmática dos atos de fala e dos atos comunicativos; análise retórica; análise estilística; análise das estruturas específicas (gênero, etc.): narrativa, argumentação, notícias jornalísticas, livros didáticos, etc.; análise conversacional da fala em interação; análise semiótica de sons, imagens e outras propriedades multimodais do discurso e da interação, entre outras (VAN DIJK, 2010, p. 11) .

A construção de um mosaico analítico será definida a partir da definição dos propósitos desenhados no projeto de pesquisa. Além das múltiplas possibilidades, é possível a combinação de técnicas e métodos em relação ao discurso selecionado. Para van Dijk (2000) um modelo estratégico de análise deve incorporar a relação entre elementos micro e macro estruturais do texto, e as intencionalidades de interpretação: “Isso pode significar que o leitor de um texto tentará reconstituir não somente o significado intencionado no texto” (DIJK, 200, p. 23). Os modelos mentais podem ser avaliados a partir das operações cognitivas que determinam a construção de sentidos e: “não só sugerem as principais noções e componentes teóricos do modelo, como também estabelecem as relações necessárias com outros modelos de discurso usados pela linguística e ciências sociais” (DIJK, 2000, p.14).

Nesse modelo cognitivo de compreensão estabelece-se, de acordo como autor, uma unidade complexa de entendimento das palavras, determinando uma unidade hierárquica no texto: “A compreensão de uma palavra em uma oração dependerá de sua estrutura funcional enquanto um todo, tanto no nível sintático quanto no nível semântico. Isso significa que, ao invés de operarmos com um modelo estrutural convencional de processamento, operamos com um modelo estratégico” (DIJK, 2000, p.22). Com base neste enfoque, foi incluída na metodologia a decomposição d em unidades elementares de análise pra posterior síntese, na busca pela hierarquia nas estruturas textuais do discurso aqui analisado. A linguagem como prática social, tal como destaca Fiorin (2007) aponta que os discursos não se processam em contextos assépticos, mas em espaços de interação social, onde ideologia se entrelaça com o ato da fala. Como destaca van Dijk (2010) os discursos estão imersos em relações de poder social sob um controle de produção discursiva de um grupo sobre outro.

Para interpretação do potencial ideológico dos discursos aqui analisados, é necessário desenredar a relação entre os sentidos mobilizados no processo discursivo e as relações de dominação que mantém. A gramática da língua, de acordo com van Dijk (2010), é igual para todos independente do posicionamento ideológico, seja de “direita” ou de “esquerda”, liberal, extremista, uma vez que o abuso do poder e as relações de dominação através dos discursos se manifestam em contextos, onde os enunciadores escolhem termos para compor verbalmente o discurso.

Então, para um marco analítico plural nesta pesquisa, foi utilizada, além da análise qualitativa dos dados, a mineração de textos para a análise quantitativa por ser um conjunto de técnicas e processos que descobrem conhecimento inovador em textos (REZENDE, 2005),

posicionada em uma área multidisciplinar que envolve áreas como linguística computacional, estatística, recuperação e extração de informação, aprendizado de máquina e especialmente Mineração de Dados, denominado de KDT (Knowledge Discovery from Text), busca extrair padrões ou conhecimentos, interessantes e não triviais a partir de documentos textuais não estruturados (KOSTOFF, 2003).

Foram definidos para a análise dos documentos três filtros nessa etapa quantitativa da pesquisa. No primeiro, buscaram-se as expressões mais utilizadas nas mensagens presidenciais, no segundo filtro as expressões que se relacionam com as palavras mais frequentes nos textos; e no terceiro filtro buscam-se as palavras pré-selecionadas na pesquisa.

A técnica da KDD inclui métodos inteligentes e ferramentas automáticas para facilitar a análise de grandes volumes de textos em busca de conhecimento útil, e, com esse objetivo, de maneira análoga à mineração de dados (MD), é o processo usado para exploração de padrões interessantes nesses documentos. Mineração de Textos é uma área multidisciplinar que incorpora técnicas de diversas áreas como Recuperação de Informação, Aprendizado de Máquina, Estatística, Lingüística Computacional, Extração de Informação, Visualização e especialmente Mineração de Dados. O processo se divide em quatro etapas: coleta de documentos, preparação dos dados, extração de padrões e avaliação dos resultados (pós processamento).

Fonte: Aranha (2007)

Na primeira parte, na busca de documentos relevantes ao domínio de aplicação do conhecimento a ser extraído. Neste trabalho foram utilizados textos das mensagens presidenciais, totalizando 8201 páginas. Nesta primeira etapa foram separados os documentos por ano de mandato, selecionadas as palavras-chave e previstos os cruzamentos e os filtros. A seleção aprimora o corpus que melhor expressa o conteúdo buscado nos textos e promove uma redução dimensional, é a etapa que busca identificar similaridades em função da morfologia ou do significado dos termos, de modo a aglomerar suas contribuições.

Em seguida, os documentos foram formatados. No caso das mensagens aqui tratadas, foram scaneadas ou capturadas em formato PDF 45para submissão aos algoritmos de extração automática de conhecimento. Nesta fase de planejamento e processamento, pois durante a transformação dos textos em formato estruturado existe a possibilidade de que informação intrínseca ao conteúdo dos textos seja perdida. Um desafio, nesse caso, é obter uma boa representação minimizando a perda de informação A dados que constituirão a base de textos de interesse e o trabalho inicial para tentar selecionar o núcleo que melhor expressa o conteúdo dos textos, ou seja, toda a informação que não refletir nenhuma ideia considerada importante poderá ser desprezada. Além de promover uma redução dimensional, esta etapa tenta identificar

45 A sigla inglesa PDF significa Portable Document Format (Formato Portátil de Documento), um formato de arquivo criado pela empresa Adobe Systems para que qualquer documento seja visualizado, independente de qual tenha sido o programa que o originou.

similaridades em função da morfologia ou do significado dos termos, de modo a aglomerar suas contribuições. (Rezende, 2005)

Para obtenção dos resultados pretendidos, foram retiradas as palavras desnecessárias, os stopwords, para limitar a quantidade de termos-índices e assim manter apenas os termos que representam realmente o contexto de cada documento; estão incluídas as preposições, conjunções, pronomes, como: de, assim, afim, agora, onde, outro, outros, ainda, a, o, que, vários, e, do, da, uns, em, um, para, é, etc.; palavras que possuem a finalidade de conectividade entre termos (no auxílio à formulação de frases), descartando a necessidade de relaciona-las na estrutura de índices.

A técnica de categorização foi a etapa seguinte, identificando os tópicos principais em um documento e associar este documento a uma ou mais categorias pré-definidas. O principal objetivo da categorização de textos é a organização automática. Foi feito o agrupamento gerando um conjunto de acordo com a similaridade ou dissimilaridade de seu conteúdo. A função de similaridade entre os exemplos é definida através dos termos que aparecem nos documentos. E na última etapa do processo de mineração de textos, a avaliação e interpretação dos padrões extraídos, foram verificados os padrões descobertos para validar o conhecimento obtido.