• Nenhum resultado encontrado

7 MODELO DE EXTRAÇÃO DE INFORMAÇÃO

7.1 REPRESENTAÇÃO GRÁFICA E DESCRIÇÃO DO MODELO

Figura 17 - Modelo de extração de informação

Com base no exposto anteriormente, foi criado e diagramado um modelo genérico (Figura 17), demonstrando todo o processo.

O modelo é composto de três atores principais:

• o usuário, que define o objeto de sua pesquisa; que, ao longo do processo, apresenta-se como operador dos softwares – embora, em alguns momentos, defina alguns aspectos que influenciarão no fluxo e no software; e que, após o processo, tem acesso às informações exibidas, capazes de gerar conhecimento sobre os dados inseridos; • o software, que consiste no conjunto de ferramentas que é utilizado

durante o processo – conforme dito antes, operadas pelo usuário -, sendo que, conforme suas definições, usar-se-á um ou outro software, ou uma ou outra funcionalidade;

• e a fonte de dados, de onde os softwares importam ou exportam os dados/textos, conforme o processo avança.

A primeira fase do processo refere-se à Coleta de dados. Neste momento, o usuário definirá a origem dos dados para a coleta. Estão estabelecidas no modelo três fontes: mídias sociais, mídias tradicionais e outras fontes. Considera-se como mídia social, como já exposto no trabalho, qualquer um dos sites que sejam atendidos pelo conceito abordado por Kaplan e Haenlein (2010), conforme o subcapítulo 2.1.1 deste.

Para mídias tradicionais, considera-se qualquer site de notícias, seja referente a um jornal, revista, blog ou semelhante, cujo propósito primeiro seja a divulgação de notícias. “Outras fontes” referem-se a qualquer outro tipo de fonte, seja um banco de dados, um conjunto de textos, entre outros – dos quais seja possível extrair texto.

Conforme a fonte escolhida, será realizada, por meio de software específico, a respectiva coleta. O que é importante entender é que, em cada caso, é possível usar um mesmo software, ou até mesmo necessitar mais de um. Além disto, o usuário pode fazer a coleta em mais de uma fonte ao mesmo tempo. É possível, no mesmo software, que se colete os dados de mídias sociais diferentes.

Para trazer um exemplo prático: neste trabalho, o mesmo software usado para mídias sociais pode ser usado para mídias tradicionais – ao mesmo tempo, inclusive; porém, em uma das mídias sociais, é necessário utilizar outro software. Ou seja, para tornar o modelo genérico, para cada fonte deve ser analisado o meio eletrônico (software) mais adequado para obter os dados.

Mesmo que os softwares sejam diferentes, há dois passos iguais para todos: a exportação dos dados obtidos para um arquivo e a conversão deste para um formato compatível. Nem sempre o formato que o software gera é o ideal para que seja possível avançar à próxima fase. Sendo assim, se prevê no modelo, não apenas a exportação, mas também a conversão, visando compatibilidade. Assim, conforme exposto na respectiva raia, surgem os “Dados coletados, exportados e convertidos para formato compatível”.

A fase seguinte refere-se ao pré-processamento, onde inicialmente os dados antes exportados serão importados. O primeiro passo consiste em remover dados desnecessários, isto porque, muitas vezes, os dados gerados anteriormente podem vir com registros ou conteúdo inútil e desnecessário, que apenas atrapalham o processo e que podem ser removidos sem prejuízo às etapas posteriores. Após, os dados precisam ser convertidos para um formato personalizado. Dependendo da fonte de origem, dados importantes, como data e número, por exemplo, aparecem identificados como “texto” e, por isto, não são manipuláveis na filtragem. Assim, essa conversão é necessária, para que seja possível criar filtros.

Para completar a limpeza, há o passo de agrupamento de dados semelhantes. Muitas vezes, há dados que pertencem a uma mesma categoria, porém estão desagrupados. A fim de tornar o filtro preciso, em algumas situações, convém agrupar os dados. Então, o usuário pode definir quais dados ele deseja analisar e selecionar – por exemplo, selecionar os dados de uma pessoa ou de um período de datas. Após isto, ele já pode filtrá-los e exportá-los.

A próxima fase consiste na extração das informações. Os dados anteriormente exportados são importados em software. Eles passam por duas fases de limpeza adicional. A primeira é a remoção de caracteres desnecessários, como pontuação e, dependendo do software, acentuação. A segunda é a remoção de stopwords, como já explicado no trabalho. Cabe salientar que estes processos, embora de pré-processamento, são comuns em ferramentas de extração das informações, o que fez serem colocados aqui.

A questão é que estas stopwords são fundamentais para o processo de análise de sentimentos. Desta forma, como pode-se observar no modelo, a remoção não ocorre quando dessa análise, mas apenas para as visualizações relacionadas a frequência de palavras e correlação entre palavras – esta decisão de qual das

formas de visualização será acessada e utilizada é do usuário. Após isto, o texto é processado e as informações são geradas.

Ficam à disposição do usuário a visualização de histogramas, gráficos de dispersão, tabelas, nuvem de palavras e grafos de correlação. Claro que, conforme o software, mais formas podem ser disponibilizadas. Porém, estas visualizações são consideradas, com base em pesquisa acadêmica sobre mineração de texto, como métodos gráficos comuns para exibição das informações, sendo o mínimo que um software deva ter para ser considerado como partícipe desta fase.

O usuário, neste caso, poderá consultar as várias formas de visualização ao mesmo tempo, comparando diferentes informações de uma mesma fonte. As visualizações não são simultâneas – como em um dashboard. Além disto, para que seja possível comparar diferentes fontes, é necessário acessar diferentes instâncias dos softwares – cada uma com as informações de uma fonte específica. Não está previsto, no modelo, o uso de um software que permita, não apenas a visualização de informações em tela única, como em um dashboard, como também a comparação entre informações de fontes diferentes – mas não há impedimento de se escolher uma ferramenta que faça isto.

Para concluir, o usuário, a partir das informações geradas, terá a capacidade de, ao visualizá-las, gerar conhecimento a partir dos dados inseridos. Por exemplo, se os textos são positivos ou negativos, quais as palavras mais usadas, qual a correlação entre as principais palavras, quais as palavras que mais se relacionam com uma determinada, entre outras. Com isto, o fluxo Dado -> Informação -> Conhecimento se encerra, cumprindo o propósito do modelo de transformar dados/texto bruto em conhecimento útil ao usuário.

Documentos relacionados