Revisão Bibliográfica
IMPACTOS AMBIENTAIS
3.3 Tratamento estatístico
3.4.3 Análise estatística
A análise estatística iniciou-se pela Estatística descritiva, que é uma descrição do conjunto de dados por meio de dois tipos de medidas: de tendência central, como médias e medianas, e as medidas de dispersão, como o desvio- padrão.
Em seguida, realizamos a inferência estatística ou estatística amostral, que almejou inferir características de uma população com esteio nos dados observados. Para analisar a normalidade dos dados, aplicamos o Teste de Shapiro- Wilk. Após, efetivamos a análise multivariada e a correlação.
Foi concretizada a análise estatística com a correlação dos dados, e em seguida, por meio do método de regressão múltipla, encontramos a equação de previsão desejada.
A Figura 45 mostra o resumo da análise estatística, a qual é mais bem delineada nos subitens subsequentes, com delineamento detalhado.
Figura 45 – Fluxograma da análise estatística utilizada.
Fonte: Elaboração própria, 2013.
3.4.3.1 Estatística descritiva
Na Estatística descritiva, estudamos as medidas de tendência central e as com dispersão. As medidas de tendência central utilizadas para a amostra foram a média aritmética, a moda e a mediana. Já para as medidas de variabilidade ou dispersão, utilizamos a variância, o desvio-padrão e os limites também conhecidos como amplitudes.
Por meio do Programa SPSS, encontramos uma ferramenta bastante útil: o boxplot. Esta serviu para analisar como as variáveis utilizadas se comportaram em relação à homogeneidade. Nesse âmbito, a avaliação dos valores atípicos se baseou na diferença dos valores em relação ao intervalo interquartílico para cada conjunto de dados.
3.4.3.2 Inferência estatística
A inferência estatística foi realizada por meio da análise multivariada, com testes de normalidade Shapiro-Wilk. Em seguida, empregamos a Correlação de Pearson para selecionar as variáveis. Estas variáveis foram dispostas em uma reta pelo Método de Regressão Múltipla, e assim encontramos a equação-resposta.
Para as análises dos pressupostos, utilizamos o Teste de Aderência, para averiguar se a distribuição dos dados podia ser assumida igual à distribuição normal pelo Teste de Shapiro-Wilk (S-W). Esta prova foi útil para verificar se uma determinada amostra pode provir de uma população ou distribuição de probabilidade especificada (distribuição normal), a fim de que seja significativo o p ≥ 0,05.
A análise dos pressupostos do modelo de regressão iniciou-se com a avaliação da normalidade dos resíduos. O diagnóstico foi feito pelo Teste de Shapiro-Wilk, o qual verificou se o modelo expressa níveis de significância superiores a 5%, o que aponta para a aceitação da hipótese de normalidade dos resíduos.
Para elaborar a equação de previsão da variável dependente ou variável resultado (geração de resíduos), foi associado para um nível de confiança (1-) e um nível de significância (). No caso deste estudo, os parâmetros estabelecidos foram de 95% e 5%, respectivamente.
Por último, verificamos os princípios de normalidade, linearidade, homoscedasticidade e independência dos residuais, por meio de gráficos. Feitas as análises e satisfeito os princípios de normalidade, aceitamos o modelo.
Para verificar a correlação entre as variáveis, utilizamos o estudo de Correlação de Pearson. Essa relação pode ser verificada com auxílio de um gráfico de dispersão e de um coeficiente de correlação linear, que mede a intensidade da associação linear entre duas variáveis, de caráter quantitativo, e que mostre uma relação de causa e efeito. A opção pelo cálculo da Correlação de Pearson se deu porque envolve valores numéricos ou variáveis quantitativas.
No diagrama da dispersão pode-se analisar a relação entre as variáveis representadas no eixo x, que representa a causa, e o eixo y, representando os efeitos.
Foram feitos os gráficos para verificar a correlação entre: PIB e consumo de água; consumo de energia elétrica x geração dos RSU; PIB e geração dos RSU; consumo de água e geração dos RSU; tempo e geração dos RSU e o IDH e geração dos RSU.
Para esta análise, também empregamos o Coeficiente Linear, que varia entre 0 e 1.
Na Equação (3), calcula-se o Rxy. O valor de Rxy deve pertencer ao intervalo -1 Rxy1. A sua interpretação é a seguinte:
0,00 Rxy 0,69 = dependência fraca. 0,70 Rxy 1,00 = dependência forte. -0,69 Rxy 0,00 = dependência fraca. -1,00 Rxy -0,70 = dependência forte.
n Y Y n X X n Y X XY Rxy 2 2 2 2 (3) 3.4.3.2.1 Regressão múltiplaUm dos objetivos deste estudo é a elaboração de um modelo de previsão da geração dos resíduos sólidos para a Cidade de Fortaleza, até 2011. Para isso, foi necessário fazer um estudo de regressão linear múltipla, visto que, para a previsão do resíduo sólido analisado, há a existem de outras variáveis consideradas independentes entre si.
Para início do estudo, utilizamos a medida média como referência na tomada de decisão, pois esta é considerada a melhor medida preditiva sem o uso de variáveis independentes.
A Correlação serviu para verificar e medir relacionamentos entre duas variáveis. Avançando mais um pouco, é possível prever uma das variáveis em função da outra. Para isso, usamos o método da regressão que, neste caso da pesquisa é o de regressão múltipla, pois há mais de duas variáveis.
A combinação linear de variáveis independentes usadas coletivamente para prever a variável dependente é também conhecida como equação ou modelo de regressão. Uma generalização é a regressão linear múltipla, cujo modelo estatístico utilizado é dado de acordo com a Equação 4:
εi (4), onde,
Y é a variável dependente19 – variável que está sendo prevista ou explicada pelo conjunto de variáveis independentes;
X1, X2,..., Xn são as variáveis independentes20 – variáveis selecionadas como previsora e potencial variável de explicação da variável dependente;
β0, é o intercepto com o eixo y;
β1, β2, ....,βn correspondem aos coeficientes técnicos atrelados às variáveis independentes;
εi é o termo que representa o resíduo ou erro da regressão21.
19
Variável dependente ou também conhecida como variável resultado ou saída. 20
Variável independente ou conhecida como previsora.
21 As diferenças entre o modelo ajustado e os valores superestimados ou subestimados, são denominadas de resíduos.
Utilizamos o Método dos Mínimos Quadrados22 para fazer o ajustamento linear. O modelo ajustado é a melhor reta que representa os dados ou as variáveis independentes.
O objetivo deste método foi usar as variáveis independentes cujos valores são conhecidos, para prever os valores da variável dependente selecionada na pesquisa.
A validação aconteceu pelo Teste de Variância (ANOVA), do modelo proposto para Fortaleza com os indicadores escolhidos (variáveis independentes). Para se afirmar foi necessário que o p-valor fosse menor do que 5% (valor adotado como nível de significância)
Com a certeza da validação do modelo proposto, examinamos as variáveis independentes para a formação do modelo de regressão.
Os coeficientes da equação-resposta para o modelo encontrado foram apresentados, respectivamente, com as variáveis independentes, por intermédio da Estatística do teste t e do nível de significância.
Para o ultimo teste, estudamos se haveria a existência de multicolinearidade dos dados, pois, caso houvesse, prejudicaria a habilidade de previsão do modelo de regressão. Se os índices de proporções de variância fossem maiores do que 0,9 (90%), restaria provada a existência de multicolinearidade dos dados.
Por ultimo, definiu-se a equação-resposta do modelo de regressão para gerar uma projeção da quantidade de RSU para Fortaleza.
Com origem da equação-resposta, aplicamos com os dados existentes para Fortaleza e verificamos que o modelo se comporta de forma aceitável, representando bem os dados.
22 O Método dos Mínimos Quadrados seleciona a linha que representa a menor soma das diferenças ao quadrado. A melhor linha é a regressão linear.