• Nenhum resultado encontrado

5.2 ANÁLISES ESTATÍSTICAS

5.2.1 Seleção dos indicadores do SNIS

Inicialmente, foram selecionados nove indicadores de forma arbitrária pelos autores, conforme Quadro 5. Essa escolha se baseou na experiência dos autores e na percepção do que poderia gerar dados mais representativos do desempenho, contemplando indicadores operacionais e de qualidade.

Quadro 5 – Indicadores selecionados arbitrariamente

Indicadores operacionais Unidade

IN009 Índice de hidrometração %

IN011 Índice de macromedição %

IN022 Consumo médio per capita de água (L/hab./dia)

IN023 Índice de atendimento urbano de água %

IN049 Índice de perdas na distribuição %

IN055 Índice de atendimento total de água %

Indicadores de qualidade Unidade

IN075 Incidência de análises de cloro residual fora do padrão % IN076 Incidência de análises de turbidez fora do padrão % IN084 Incidência de análises de coliformes totais fora do padrão %

Também foi realizada uma segunda seleção, porém, dessa vez, utilizando uma técnica da estatística multivariada para definir quais indicadores eram os mais representativos do conjunto dos 43 indicadores do SNIS. Ou seja, quais indicadores são capazes de diferenciar mais os prestadores. Para tanto, aplicou-se a análise fatorial exploratória, a qual permite reduzir a quantidade de indicadores e os resumem em fatores com a mínima perda de informação (ALENCAR FILHO; ABREU, 2005; BEZERRA; CORRAR, 2006; FIGUEIREDO FILHO; SILVA JÚNIOR, 2010; HAIR et al, 2006; SILVA et al, 2014).

O fator pode ser considerado como uma nova variável latente que assume e expressa o que há de comum entre um conjunto de variáveis observáveis, representando as dimensões que essas variáveis medem. Essas dimensões não podem ser observadas diretamente e são medidas

de maneira indireta através das variáveis observáveis (FIGUEIREDO FILHO; SILVA JÚNIOR, 2010; HAIR et al, 2006).

A principal diferença desta técnica de Análise Fatorial em relação à técnica de Análise de Componentes Principais (ACP) consiste no fato da ACP ser uma técnica puramente exploratória que considera que toda a variabilidade dos dados pode ser explicada pelas componentes. Enquanto que a Análise Fatorial supõe que existem dimensões latentes ou fatores, os quais explicam apenas a parte da variância compartilhada entre as variáveis (variância comum). O restante dessa variância (variância específica) não pode ser explicado pelo modelo e consiste em um erro aleatório (COSTELLO; OSBORNE, 2005; DAMÁSIO, 2012; FIGUEIREDO FILHO; SILVA JÚNIOR, 2010; HAIR et al, 2006).

Uma forma de medir a capacidade de explicação da variabilidade dos indicadores pelos fatores foi através da comunalidade, a qual representa a parcela da variância da variável observada que pode ser explicada pelos fatores comuns. O seu valor pode variar de 0 a 1, sendo que quanto mais próximo de 1, maior é a parcela da variância explicada pelo conjunto de fatores e, portanto, mais adequada a variável é para fazer parte do modelo fatorial (ALENCAR FILHO; ABREU, 2005; MONTEIRO; PINHEIRO, 2004; SILVA et al., 2014).

Uma outra medida importante é a carga fatorial. Ela serve para avaliar a relevância de cada variável observada para cada um dos fatores e mensura a correlação entre cada variável e o fator. Quanto maior seu valor, maior é a relevância da variável para aquele fator específico. A soma ao quadrado de todas as cargas fatoriais de uma variável é igual a sua comunalidade (HAIR et al., 2006). De maneira que uma variável que tenha carga alta em vários fatores apresenta uma variância específica (não explicada pelo modelo fatorial) muito pequena.

Assim, essas duas medidas foram importantes para avaliar a capacidade dos fatores em expressar a variabilidade das variáveis observadas (indicadores do SNIS) e identificar as dimensões que eles representam de acordo com as variáveis que possuem as maiores cargas fatoriais. Consequentemente, a interpretação dos fatores foi feita com base no valor das cargas fatoriais, identificando aquela variável que exerce maior influência naquele fator. Quanto maior o seu valor, maior é a capacidade do fator em expressar a dimensão medida por essa variável (HAIR et al, 2006).

A partir dos resultados dessa análise, foi possível identificar e entender o padrão de correlação entre os indicadores. Além de identificar os indicadores apropriados ou até mesmo a criação de um novo conjunto de índices que resumem as características do banco de dados para a aplicação das etapas subsequentes desse trabalho: medidas descritivas, modelo de regressão linear múltipla e testes de hipóteses.

Ressalta-se que há duas opções quanto ao uso dos resultados da análise fatorial, conforme Hair et al. (2006): selecionar a variável com a maior carga fatorial como uma representativa substituta para uma dimensão fatorial particular; e a outra opção é substituir o conjunto original de variáveis por um conjunto menor e inteiramente novo, criado a partir dos escores fatoriais. A desvantagem da primeira opção é que pode não existir uma única variável com carga fatorial maior do que as demais e essa variável pode não representar um resultado que talvez seja mais complexo. Dessa forma, a segunda alternativa pode ser a mais adequada, visto que os escores fatoriais são calculados com base nas cargas fatoriais de todas as variáveis no fator. No entanto, mantém-se a interpretação do fator baseada nas maiores cargas fatoriais (HAIR et al., 2006).

Nesse contexto, a execução dessa etapa foi guiada pelo roteiro de planejamento e execução de análise fatorial estabelecido por Figueiredo Filho e Silva Júnior (2010). De acordo com esses autores, o planejamento da análise fatorial constitui em três estágios: verificar a adequabilidade da base de dados ao modelo fatorial; determinar a técnica de extração e o número de fatores a serem extraídos; e decidir o tipo de rotação dos fatores.

Em relação à adequabilidade da base de dados, observou-se o padrão de correlação entre os indicadores através da matriz de correlação, destacando os coeficientes de correlação superiores a 0,3. Além disso, aplicou-se o critério Kaiser-Meyer-Olkin (KMO) e o teste de esfericidade de Bartelett. O KMO indica a proporção da variância dos dados que pode ser considerada comum a todas as variáveis, possibilitando sua representação através de fatores comuns. O seu valor pode variar de 0 a 1, sendo que quanto mais próximo de 1, mais adequada é a amostra para a aplicação da análise fatorial. Nesse trabalho considerou-se valores acima de 0,5 como aceitáveis (DAMÁSIO, 2012; HAIR et al, 2006; OLIVEIRA JÚNIOR; MORAIS, 2009).

O teste de esfericidade de Bartelett, por sua vez, testa a hipótese nula de que a matriz de correlação é uma matriz identidade, o que indicaria que não há correlação entre os indicadores. Essa hipótese deve ser rejeitada a um nível de significância de 5% para que a aplicação da análise fatorial seja adequada (BEZERRA; CORRAR, 2006; DAMÁSIO, 2012; OLIVEIRA JÚNIOR; MORAIS, 2009).

Após a sinalização da adequabilidade da amostra, definiu-se a quantidade de fatores a serem extraídos através do critério de Kaiser e pelo gráfico Scree plot. Segundo o critério de Kaiser, cada fator deve explicar a variância de pelo menos uma variável. Como a soma total dos autovalores é sempre igual ao número total de variáveis, um fator deve apresentar autovalor maior do que 1 para ter um total de variância explicada maior do que uma única variável.

Ademais, quando o autovalor é divido pela soma de todos os autovalores resulta na proporção da variabilidade total dos dados que é explicada pelo fator (DAMÁSIO, 2012; SILVA et al., 2014). Dessa forma, considerou-se como significantes apenas os fatores que possuem autovalores maiores do que 1, os demais foram descartados.

Além disso, gerou-se o Scree Plot, que é uma representação gráfica dos autovalores em função ao número de fatores em sua ordem de extração. A forma da curva resultante é usada para avaliar o ponto de corte. O ponto no qual o gráfico começa a ficar horizontal é considerado um indicativo do número máximo de fatores a serem extraídos (COSTELLO; OSBORNE, 2005; HAIR et al., 2006). Os últimos autores ressaltam que o Scree Plot pode resultar em mais fatores do que o critério de Kaiser. Nesse sentido, foi gerado o gráfico Scree Plot, porém a decisão foi feita prioritariamente pelo critério de Kaiser. Além disso, aspectos práticos, relativos à interpretação dos fatores, também devem ser considerados na decisão sobre a determinação do número de fatores.

Após verificar esses requisitos e decidir o número de fatores, foi ajustado o modelo de análise fatorial exploratória com os 43 indicadores do SNIS. O método de extração dos fatores utilizado foi o método de Mínimos Quadrados, o método padrão utilizado pelo pacote Psych do software R (REVELLE, 2015; HARMAN; JONES, 1966). Também, aplicou-se a rotação ortogonal VARIMAX, visto que ela faz com que cada variável tenha uma carga fatorial elevada em apenas um fator, facilitando a interpretação dos fatores e a divisão mais clara dos indicadores entre os fatores (ALENCAR FILHO; ABREU, 2005; COSTELLO; OSBORNE, 2005; FIGUEIREDO FILHO; SILVA JÚNIOR, 2010).

Ademais, para determinar quais indicadores compõem cada um dos fatores, foi necessário determinar um valor mínimo para as cargas a partir do qual as variáveis foram consideradas significativas. Hair et al (2006) apresentam uma tabela com as diretrizes para identificação de cargas fatoriais significantes baseadas no tamanho da amostra.

No entanto, observa-se que essa decisão é arbitrária. O que indica que não há um consenso quanto a um valor de referência ficando a cargo dos autores sua decisão (ALENCAR FILHO; ABREU, 2005; ALENCAR FILHO; MOREIRA; LOUREIRO, 2004; FIGUEIREDO FILHO; SILVA JÚNIOR, 2010; OLIVEIRA JÚNIOR; MORAIS, 2009; UBIRAJARA; MENDONÇA; MELO, 2009). Dessa forma, nesse trabalho considerou-se como carga significativa aquela que foi igual ou maior do que 0,4.

Os critérios, portanto arbitrários, da carga fatorial igual ou maior do que 0,4 e comunalidade igual ou maior do que 0,5 foram usados para determinar com qual fator as variáveis estavam mais associadas. Além disso, observou-se se uma variável tinha carga

cruzada, ou seja, cargas significativas em mais de um fator. As variáveis que não atenderam a esse último critério descrito foram eliminadas.

Caso houvesse alguma eliminação, todas as etapas anteriores foram repetidas e uma nova matriz fatorial era gerada e reavaliada. Isso foi feito até se obter um conjunto de fatores interpretáveis e que representassem a variabilidade comum entre os indicadores.

Os escores foram calculados para cada indivíduo com base nas cargas fatoriais de todas as variáveis no fator, utilizando o método de regressão. A expressão geral para a estimação do j-ésimo fator Fj é dada por:

𝐹𝑗 = 𝑊𝑗1𝑋1+ 𝑊𝑗2𝑋2+ ⋯ + 𝑊𝑗𝑝𝑋𝑝

Wji: são os coeficientes dos escores fatoriais;

Xji: são as variáveis originais observadas;

p: é o número de variáveis.

Os valores dos escores fatoriais foram utilizados nas etapas posteriores desse trabalho, de forma a comparar o desempenho dos prestadores de serviços de água baseado nas dimensões que foram representadas pelos fatores.

Para aplicação da técnica de Análise Fatorial é necessário que as variáveis estejam na mesma escala, senão aquela que tiver uma escala maior acaba dominando os resultados do modelo. Como os indicadores estavam em escalas muito distintas foi necessário normalizar os dados dos escores para que os seus valores estivessem em uma unidade adimensional comum que variasse de 0 a 1. Para tanto, foi utilizada a metodologia de transformação linear pela regra do intervalo de valor que está descrito abaixo conforme Figueirêdo et al (2010, p.18).

Essa regra utiliza na normalização a equação 1, para indicadores do tipo “quanto maior seu valor, melhor” e a equação 2, para indicadores do tipo “quanto menor seu valor, melhor”. Assim, na escala adimensional, o menor valor assumido por um indicador corresponde a 0 e o maior, correspondente a 1 (FIGUEIRÊDO et al, 2010).

𝑋𝑖𝑗′ = 𝑋𝑖𝑗 − 𝑋𝑖𝑗 𝑚𝑖𝑛

𝑋𝑖𝑗𝑚𝑎𝑥 − 𝑋 𝑖𝑗𝑚𝑖𝑛

𝑋𝑖𝑗= 𝑋𝑖𝑗𝑚𝑎𝑥 − 𝑋𝑖𝑗

𝑋𝑖𝑗𝑚𝑎𝑥 − 𝑋 𝑖𝑗𝑚𝑖𝑛

(2)

Xij = Valor normalizado do indicador i, considerando um valo j que pode ser assumido

pelo indicador i;

Xij : valor j assumido pelo indicador i;

Xijmax: valor máximo entre os valores j que podem ser assumidos por um indicador i;

Xijmin: valor mínimo entre os valores j que podem ser assumidos por um indicador i.

Portanto, quanto mais próximo de 1, melhor é o desempenho do prestador naquele índice, consequentemente, quanto mais próximo de 0, pior é o desempenho.