• Nenhum resultado encontrado

2.3 INTERVENÇÃO: PROCESSO DE BUSCA INTELIGENTE (ARTEFATO 2)

2.3.4.1 Análise de conteúdo com utilização de SADQ

A técnica de análise de conteúdo foi utilizada para a avaliação de desempenho do mecanismo de busca desenvolvido. Para tanto, foi utilizada a ferramenta de mineração de textos QDA Miner, versão 5.0.19, e recursos do módulo WordStat 7.1.21. A escolha pela ferramenta se deu devido à qualidade das análises, à disponibilidade do software e ao conhecimento de manuseio.

A análise de conteúdo possui grande utilização como técnica de pesquisa qualitativa. Ela apresenta três abordagens distintas, convencional, direcionada e sumativa, usadas na interpretação de dados textuais. Na análise de conteúdo convencional, as categorias de codificação derivam-se do próprio texto. A análise direcionada é orientada pelo desenvolvimento de uma teoria ou de descobertas de pesquisas. A análise sumativa envolve contagens e comparações de palavras-chave ou conteúdos interpretados por seu contexto subjacente (HSIEH; SHANNON, 2005).

44

Nesta avaliação, a utilização da análise de conteúdo sumativa se apresenta como mais apropriada, “uma vez que começa com a identificação e a quantificação de certas palavras ou conteúdo em texto com o objetivo de compreender o uso contextual das palavras ou do conteúdo” (HSIEH; SHANNON, 2005, p. 1283, tradução nossa). Destacam os autores que, caso a análise termine apenas na contagem e medição de frequências, esta seria uma análise quantitativa. Portanto, para se tornar qualitativa, é necessária a interpretação dos resultados.

Os programas denominados softwares de análise de dados qualitativos (SADQ) utilizam bancos de dados textuais possibilitando o aprofundamento e a agilidade no processo de análise qualitativa de textos. A utilização desses programas facilita a visualização das relações entre conjuntos de dados com maior velocidade e contribui para a segurança do estudo ao fazer os registros automáticos de informações referente às análises (NODARI et al., 2014).

O QDA Miner é um pacote de software de análise de dados qualitativo de fácil utilização, que permite codificação, anotações, recuperação e análises de conjuntos de documentos e imagens independentemente do tamanho. É uma ferramenta que pode ser utilizada na análise de entrevistas ou nas transcrições de grupos focais, documentos legais, artigos de revistas, discursos, livros inteiros, desenhos, fotografias, pinturas e outros documentos visuais (PROVALISRESEARCH, 2019).

O módulo WordStat propicia o retorno de dados estatísticos de palavras encontradas na base de dados, sendo possível encontrar: a) frequência (número de vezes que a palavra é citada); b) percentual (%) da frequência de uma palavra em relação ao total de palavras encontradas; c) percentual processado da frequência de uma palavra em relação ao total de palavras analisadas; d) percentual da frequência de uma palavra em relação ao total de palavras, desconsiderando palavras pertencentes à lista de exclusão, o número de publicações científicas que estão sendo analisadas, o percentual de casos em que a palavra ocorre e o índice TF-IDF (índice de termos com maior relevância) (FAUSTINO DIAS, 2019).

São utilizados o índice TF-IDF e o coeficiente de Jaccard para as definições de similaridade e proximidade dos termos nos conjuntos de documentos.

A concentração de ocorrências de uma determinada palavra em um grupo de documentos é chamada de TF-IDF (frequência do termo vezes frequência de documento inverso) (RAJARAMAN; ULLMAN, 2011). Em um conjunto de N documentos, se define fij

como frequência (número de ocorrências) do termo (palavra) i no documento j. Assim, se define o termo frequência pela fórmula:

45 kj k ij ij f f TF max  (1)

A frequência do termo i no documento j é normalizado dividindo-o pelo número máximo de ocorrências de qualquer termo (podendo ser excluídas as stop words) no documento. Desta forma, o termo mais frequente no documento j obtém TF de 1 (um), e os outros termos obtêm frações como a frequência do termo para o documento.

Por sua vez, o IDF de um termo é definido por: supondo que o termo i apareça em n

dos N documentos do conjunto, o IDF i = log2 (N/ni). A pontuação TF-IDF para o termo i no documento j é, então, definida como TFij x IDFi. Assim, os termos com maior pontuação TF-IDF são frequentemente os termos que melhor caracterizam o tópico do documento (RAJARAMAN; ULLMAN, 2011).

O coeficiente de Jaccard analisa a similaridade dos termos com o objetivo de identificar aqueles que apresentam maior proximidade entre si. O coeficiente assume valores entre 0 e 1, sendo obtido a partir da fórmula:

) (a b c a a JC    (2) Onde:

“a” representa os casos em que existe a ocorrência de ambos os termos concomitantemente e “b” e “c” representam os casos onde um termo pode ser encontrado e o outro não, constituindo a relação entre as vezes que os termos ocorrem juntos e separados.

Após essa etapa, os arquivos selecionados foram submetidos à análise de conteúdo para se avaliar se as alterações no mecanismo de busca são capazes de gerar valor ao usuário.

2.3.5 Etapa 5: conclusão

A intervenção teve como meta instigar o processo de mudança nos procedimentos de busca da plataforma de Business Intelligence do CiCarne, bem como propor novas abordagens aos pesquisadores e usuários.

46 3 BASES TEÓRICO-CONCEITUAIS

Neste capítulo, são apresentados os temas norteadores deste trabalho, distribuídos em quatro seções de acordo com contexto do design science research, a saber: etapa 1 – entendimento ou conscientização do problema: Big Data como gerador de vantagens competitivas; etapa 2 – sugestões: inovação tecnológica baseada em dados (Big Data), Big Data e inteligência competitiva; etapa 3 – desenvolvimento: o Big Data e o agronegócio. O embasamento teórico desses assuntos servirá de ponto de partida para a criação do framework

de inovação tecnológica fundamentado em dados cujo foco está no processo de inteligência competitiva para cadeias produtivas, objetivo principal desta tese. A Figura 5 apresenta a composição do capítulo.

Figura 5. Estrutura teórica da pesquisa.

47