3. METODOLOGIA
3.3 DELINEAMENTO DA PESQUISA
3.3.1 Dados: Coleta e Tratamento
O dado pode ser definido como o elemento ou a unidade de informação conhecida.
Com o tratamento e a avaliação de dados pôde-se obter a informação relacionada a determinado problema. Para a realização desta pesquisa foram coletados dados primários e dados secundários. Os dados primários são aqueles que foram reunidos para uma finalidade específica ou para um projeto específico de pesquisa, enquanto que os dados secundários “são aqueles que foram coletados para outra finalidade e podem ser encontrados em algum lugar”
(KOTLER, 2000, p. 128).
Na fase exploratória, de ênfase qualitativa, a coleta de dados secundários envolveu a busca de informações relacionadas ao serviço VoIP, abrangendo documentos, relatórios de administração das empresas, organogramas, revistas especializadas, jornais, homepage das empresas na Internet e outras fontes de informações. Os dados primários foram obtidos por meio de reuniões e visitas junto à empresa prestadora de serviço VoIP, utilizando-se como orientação o roteiro disponível no Apêndice II – Roteiro de Observação (p. 287). Também foram coletadas informações primárias com gestores e um grupo de consumidores, clientes da empresa em estudo, utilizando-se de entrevistas semiestruturadas disponíveis no Apêndice III – Roteiro de Entrevista Semiestruturada (p. 288). Estas entrevistas foram realizadas segundo o método de bola-de-neve, em que vão sendo realizadas novas entrevistas até que não seja significativo o número de novas informações obtidas por entrevista. Neste apêndice são apresentados dois roteiros de entrevista, sendo que o primeiro roteiro foi aplicado aos gestores do produto da empresa em estudo, enquanto que o segundo roteiro foi aplicado aos usuários do serviço, clientes da empresa em estudo.
Para Triviños (1987), a entrevista semiestruturada "[...] parte de certos questionamentos básicos, apoiados em teorias e hipóteses, que interessam à pesquisa e que, ademais, oferecem amplo campo de interrogativas, fruto de novas hipóteses que vão surgindo, à medida que se recebem as respostas do informante". Isso possibilita uma maior flexibilidade e interação com o participante, permitindo um levantamento mais amplo, em função de sua flexibilidade adaptativa às circunstâncias, às percepções, às opiniões e às interpretações da realidade organizacional. Como as informações foram obtidas a partir da percepção dos entrevistados, que pode ser viesada por uma série de fatores, utilizou-se de fontes múltiplas de dados, para evitar o que Yin (1994) considera como dependência excessiva de um informante.
Desse modo, foram realizadas entrevistas auxiliares com outras pessoas da empresa fornecedora de serviços ou do consumidor, bem como com especialistas da área.
Sempre que possível, preferiu-se o uso de informações disponíveis em formato eletrônico, de modo a facilitar a disponibilização e a análise dos dados utilizando-se de aplicativos de análise. As entrevistas, que compõem os dados primários, foram gravadas, transcritas e disponibilizadas em formato eletrônico, tendo sido utilizada a técnica de análise de conteúdo para o estudo dos dados primários e secundários, sendo os mesmos categorizados por temas. As técnicas de análise de conteúdo são úteis em estudos exploratórios, sendo definido por Bardin como:
“A análise de conteúdo é um conjunto de técnicas de análise das comunicações visando obter, através de procedimentos sistemáticos e objetivos de descrição do conteúdo das mensagens, indicadores (quantitativos ou não) que permitam a inferência de conhecimentos relativos às condições de produção/recepção (variáveis inferidas) dessas mensagens.” (BARDIN, 1977, p. 42).
Para a fase quantitativa, os dados secundários foram obtidos a partir de informações econômicas e demográficas disponibilizadas nas bases de dados do Instituto Brasileiro de Geografia e Estatística (IBGE), Ministério do Trabalho (MTE) e Instituto Paranaense de Desenvolvimento Econômico e Social (IPARDES). Especificamente, verificou-se a quantidade de empresas e trabalhadores para cada município brasileiro, utilizando-se de informações disponíveis na base de dados da Relação Anual de Informações Sociais (RAIS), disponibilizadas pelo Ministério do Trabalho (MTE, 2009), em que os dados são disponibilizados gratuitamente na homepage para uso de fins acadêmicos.
Como dados primários, foram utilizadas as informações disponibilizadas pela empresa, incluindo as informações contidas no Google Analytics (GOOGLE, 2008) do serviço em estudo e, também, amostras de dados transacionais disponíveis na base de dados da empresa. De modo a facilitar a compreensão, o Quadro 29 apresenta as diferenças básicas entre os tipos de informações disponibilizadas.
O Google Analytics é uma ferramenta de monitoramento e de análise de acesso à pagina da Internet. As páginas que são monitoradas pelo Google Analytics registram o número de visitas realizadas, apresentando os dados agregados por município. Também são disponibilizadas informações relacionadas ao conjunto de páginas selecionadas, horário de acesso e tempo de acesso. As informações podem ser combinadas em diversas opções de gráficos e figuras, gerando relatórios por dia, semana ou mês. Cabe ressaltar que nesta ferramenta não são disponibilizadas as informações individuais dos usuários, sendo o município o menor nível de agregação obtido.
O Google Analytics contempla a totalidade dos clientes atendidos pela empresa, estando disponíveis informações do período de abril de 2006 até fevereiro de 2009. A grande vantagem das informações obtidas pela ferramenta é a visualização da área geográfica em que os usuários acessam a página do serviço na Internet. Como limitações, muitos dos usuários não possuem a identificação da localidade disponibilizada e o servidor de acesso pode estar localizado em municípios da vizinhança. Como exemplo, no sistema não está representada a cidade de Maringá, que é uma importante cidade do Estado do Paraná, sendo que os clientes desta cidade estão agregados em municípios próximos, como Apucarana e Londrina. Este fato requer alguns cuidados, uma vez que esses municípios possuem perfis econômicos diferentes.
Quadro 29 – Fontes de Informações Disponibilizadas pela Empresa em Estudo
Descrição Google Analytics
(GOOGLE, 2008) Base de Dados da Empresa Foco das informações − Busca de informações sobre o
serviço
− Consumo de ligações de entrada e saída
Origem dos Dados − Monitoramento do acesso pelo cliente à Página na Internet
− Uso dos serviços pelo cliente, registrado pelo equipamento que executa a chamada telefônica Nível de Agregação
(Glanularidade) − Por Município − Individual (Conjunto 1)
− Por Município (Conjunto 2) Ferramentas de Análise
Apropriadas − Web Mining − Data Mining
Pontos Fortes − Disponibilizada a informação sobre a totalidade dos usuários
− Não há erros de coleta de dados, pois a aquisição é automática
− Disponibiliza a região geográfica de acesso
− Permite a elaboração de modelos a nível individual
− Informação de município preenchida pelo próprio usuário
Pontos Fracos − Municípios com diferentes perfis podem estar agrupados em uma única localidade
− Estudo realizado por amostras
− Necessidade de filtragem para a identificação da localidade
Fonte: Elaboração Própria (2009).
Da base de dados da empresa foram fornecidos dois conjuntos de informações. O primeiro conjunto contempla a receita e o número total de clientes em cada localidade, sendo a menor glanularidade o município. O segundo conjunto contempla dados individuais de uma amostra de 6.108 usuários com o histórico de receita, recarga e uso mensal, abrangendo o período de novembro de 2005 a outubro de 2008, não tendo sido disponibilizada a informação
da localidade destes usuários de modo desagregado. A localidade dos clientes, mês a mês, pôde ser obtida a partir dos dados do Google Analytics (GOOGLE, 2008) e da base de dados disponibilizados pela empresa em estudo.
3.3.2 Modelagem
As atividades de mineração de dados foram realizadas segundo os procedimentos propostos pelo método CRISP-DM (Cross Industry Standard Process for Data Mining), descritos na referência teórica (item 2.7.1 - Metodologia CRISP-DM, p. 139), conforme abordado por Sumatthi e Sivanandam (2006, p. 702).
Para a construção do modelo, utilizou-se da ferramenta de regras de decisão, tendo sido optado pela utilização do algoritmo de regras de decisão C5.0, conforme abordado na referência teórica (item 2.7.1.4.1 - Métodos de Classificação, p. 149), tendo Quinlan (1993) detalhado o princípio de funcionamento deste algoritmo. A escolha deste algoritmo ocorreu pela facilidade de interpretação dos modelos, pelo bom desempenho que os algoritmos de decisão vêm produzindo nos estudos de abandono de clientes (NESLIN et al., 2006) e pela disponibilidade do algoritmo no aplicativo Clementine (SPSS, 2008).
Optou-se pela utilização do aplicativo Clementine pelas seguintes razões: pela disponibilidade do aplicativo para fins acadêmicos; pelo fato de o mesmo aplicativo ser utilizado pela empresa em estudo; por não haver limitações quanto ao número de dados em análise; pela disponibilidade de suporte técnico pelo fornecedor do aplicativo; pela facilidade de utilização, não sendo necessários conhecimentos avançados em programação; e pelo fato do aplicativo estar adequado à metodologia CRISP-DM.