TRATAMENTOS DAS AMOSTRAS - MÉTODOS E PROCEDIMENTOS

3 MÉTODOS E PROCEDIMENTOS

3.3 TRATAMENTOS DAS AMOSTRAS

3.3.1 Dados Faltantes

A ausência de dados em análises multivariadas tem como impacto prático a redução da amostra disponível ao estudo. Dependendo do número de dados faltantes e da disposição deles na amostra, o número de observações eliminadas pode ser de magnitude tal que o que era uma amostra adequada pode tornar-se inadequada (HAIR et al., 2009). Após a definição da amostra de cada exercício social, verificou-se que algumas empresas ainda apresentavam lacunas por falta de dados para algumas variáveis, invocando uma ação corretiva ou a eliminação delas do estudo.

Como primeiro passo para redução do número de dados faltantes, foram consultadas as demonstrações contábeis divulgadas anualmente ao mercado de ações pelas empresas integrantes do estudo e disponíveis no site da CVM, e calculados alguns IEF não encontrados no banco de dados da Economática.

Após este procedimento, as amostras anuais para o estudo apresentaram o seguinte panorama:

Tabela 3: Impacto dos dados faltantes nas amostras anuais Exercício Social Nº de Variáveis Nº de Empresas Nº Máximo de Dados(a)

Dados Faltantes Empresas Afetadas

Absoluto Relativo(b) Absoluto Relativo(c)

2005 23 132 3.036 55 1,81% 29 21,97%

2006 23 126 2.898 41 1,41% 23 18,25%

2007 23 136 3.128 66 2,11% 31 22,79%

a. Produto entre o número de variáveis e o número de empresas de cada amostra. b. Razão entre o número absoluto de dados faltantes e o número máximo de dados.

c. Razão entre o número absoluto de empresas afetadas e o número de empresas de cada amostra. Fonte: Dados da pesquisa

Apesar dos baixos percentuais de dados faltantes, a manutenção de tal situação provocaria uma considerável redução no número de empresas disponíveis para o estudo, como pode ser verificado na Tabela 3. A fim de sanar esse problema, buscou-se uma técnica de

atribuição10

10_{Atribuição é o processo de estimação de valor perdido baseado em valores válidos de outras variáveis e/ou}

casos na amostra (HAIR et al., 2009).

que possibilitasse a complementação dos dados sem, contudo, provocar alterações relevantes nos perfis das amostras. O cálculo de valores de substituição a partir de um conjunto de dados válidos tem por premissa que um valor obtido de todas as outras observações da amostra é o mais representativo valor de substituição (HAIR et al., 2009). Em função dos níveis relativamente baixos de dados faltantes (menos que 10%) e da facilidade de implementação, foi adotada a atribuição da média aritmética dos dados existentes em cada grupo aos dados faltantes (HAIR et al., 2009).

3.3.2 Observações Atípicas (outliers)

São considerados outliers as observações que apresentam características únicas e notadamente distintas, que parecem não se ajustar ao padrão geral do restante dos dados (HAIR et al., 2009).

Os outliers podem ter efeitos significativos sobre qualquer tipo de análise empírica. Comumente, podem tornar a soma dos resíduos muito alta e influenciar na estimação dos coeficientes de funções estatísticas em estudos, mas não devem ser categoricamente rotulados de benéficos ou problemáticos. Eles devem ser analisados no contexto do estudo e avaliados pelos tipos de informação que possam fornecer (HAIR et al., 2009).

As análises das amostras para identificação de outliers foi realizada utilizando técnicas de detecção univariada e multivariada. A técnica de detecção univariada examina a distribuição dos dados para cada variável do estudo e seleciona como outliers aquelas observações extremas (altas e baixas) dos intervalos da distribuição (HAIR et al., 2009). Para a designação de observações como outliers na perspectiva univariada, foram realizados os seguintes procedimentos:

1º) conversão das observações de cada variável em escores padrão, de forma que a distribuição apresentasse média 0 e desvio-padrão 1; e

2º) identificação como outliers de todas as observações com escores padrão maiores ou iguais a 3,5 11

(

x μ

)

(

x μ

)

D_i2 = _i − ' −1 _i − .

A técnica de detecção multivariada procura mensurar a posição de cada caso (empresa) relativamente a um ponto comum, ao longo de um conjunto de variáveis. Para tanto, utiliza a Distância de Mahalanobis (D2 de Mahalanobis), uma medida de distância de cada caso em um espaço multidimensional a partir do centro médio de todos os casos, gerando um único valor para cada empresa, independentemente do número de variáveis do estudo (HAIR et al., 2009). A D2 de Mahalanobis pode ser calculada a partir da Fórmula a seguir:

) 24 (

Onde:

x = vetor multivariado de observações de uma empresa. µ = médias das variáveis independentes da amostra ∑-1

= inversa da matriz de variâncias-covariâncias da amostra

Os valores mais elevados de D2 de Mahalanobis sugerem casos mais afastados da distribuição geral da amostra e, portanto, possíveis outliers. Conforme Hair et al. (2009), a razão entre a medida D2 e o número de variáveis envolvidas (graus de liberdade – gl) é aproximadamente distribuída como um valor t. Portanto, sugere que casos com valores D2/dg que excedam 2,5 em amostras pequenas e 3 ou 4 em grandes amostras são considerados possíveis outliers. Considerando que as amostras deste estudo apresentam um número significativo de empresas, a técnica de detecção multivariada teve como parâmetro valores de D2/dg que excederam 3,5 (HAIR et al., 2009; CORRAR; PAULO; DIAS FILHO, 2007). Como a D2 de Mahalanobis fornece apenas uma avaliação geral de cada caso, sem destacar quais variáveis são responsáveis pela elevação da medida, o passo seguinte foi o cruzamento dos outliers gerados pelas duas técnicas de detecção, identificando as interseções entre elas para uma avaliação minuciosa acerca da manutenção ou exclusão dos dados.

Conforme Hair et al. (2009), pequenas amostras (80 observações ou menos) geralmente utilizam o escore padrão 2,5 para identificação de outliers. Para amostras maiores, o valor de referência do escore padrão pode ser aumentado até 4.

A interseção dos resultados das duas técnicas mostrou que, nos anos de 2005, 2006 e 2007, poderiam ser considerados outliers, inicialmente, 8, 11 e 7 empresas, com 21, 26 e 17 dados, respectivamente. Após a análise de cada caso, a situação dos outliers nas amostras resultou:

Tabela 4: Impacto dos outliers nas amostras anuais Exercício Social Nº de Variáveis Nº de Empresas Nº Máximo de Dados(a)

Outliers Empresas Afetadas Absoluto Relativo(b) Absoluto Relativo(c)

2005 23 132 3.036 16 0,53% 6 4,54%

2006 23 126 2.898 20 0,69% 11 8,73%

2007 23 136 3.128 16 0,51% 7 5,15%

a. Produto entre o número de variáveis e o número de empresas de cada amostra. b. Razão entre o número absoluto de outliers e o número máximo de dados.

c. Razão entre o número absoluto de empresas afetadas e o número de empresas de cada amostra. Fonte: Dados da pesquisa

Como a manutenção dos outliers provocaria mudanças substanciais nos valores médios das variáveis, além dos outros aspectos já tratados no início deste tópico, eles foram substituídos pelos valores médios das variáveis, calculados sem a inclusão daqueles valores. Os outliers não foram apenas excluídos, porque isso provocaria a perda de casos (empresas) à análise, reduzindo as amostras em 4,54%, 8,73% e 5,15% nos exercícios de 2005, 2006 e 2007, respectivamente.

3.3.3 Segregação das Amostras

Após a seleção e o tratamento de cada amostra anual, foi procedida a sua divisão em 2 subamostras – subamostra de análise e subamostra de teste.

A subamostra de análise é usada para a estimação das funções estatísticas a partir do estudo dos dados, e a subamostra de teste destina-se à validação daquelas funções. Conforme Hair et al. (2009), não há qualquer orientação definitiva acerca do tamanho de cada subamostra, sendo comuns divisões nas proporções do tipo 50-50, 60-40 ou mesmo 75-25 para análise e teste, respectivamente. É importante, entretanto, seguir um procedimento de

amostragem proporcionalmente estratificada e que o tamanho de cada categoria integrante da subamostra tenha no mínimo 20 casos, a fim de proporcionar mais robustez às análises.

As subamostras foram selecionadas aleatoriamente utilizando a rotina Random Number Generators do SPSS, numa proporção 60-40 entre análise e teste, respectivamente, resultando nos seguintes perfis:

Tabela 5: Segregação das amostras anuais em subamostras de análise e teste

Ano Amostra Subamostra de

Análise Subamostra de Teste 2005 132 80 52 2006 126 76 50 2007 136 80 56

Fonte: Dados da pesquisa

Ressalta-se, ainda, que as subamostras de análise e de teste da Tabela 5 seguem uma estratificação entre Vencedores e Perdedores, numa proporção 50-50. Portanto, esta disposição atende a todos os pré-requisitos mencionados acima.

Após realizar os ajustes necessários às amostras coletadas e a segregação em subamostras, o próximo passo será o tratamento econométrico dos dados em busca de respostas à questão de pesquisa. Este tratamento será realizado a partir de três métodos de análise: Regra do Qui-quadrado Mínimo, Análise Discriminante e Modelo Logit, apresentados em seguida.

No documento A eficiência da análise financeira fundamentalista na previsão de variações no valor da empresa (páginas 64-68)