Análise estatística - Tratamento estatístico

Revisão Bibliográfica

IMPACTOS AMBIENTAIS

3.3 Tratamento estatístico

3.4.3 Análise estatística

A análise estatística iniciou-se pela Estatística descritiva, que é uma descrição do conjunto de dados por meio de dois tipos de medidas: de tendência central, como médias e medianas, e as medidas de dispersão, como o desvio- padrão.

Em seguida, realizamos a inferência estatística ou estatística amostral, que almejou inferir características de uma população com esteio nos dados observados. Para analisar a normalidade dos dados, aplicamos o Teste de Shapiro- Wilk. Após, efetivamos a análise multivariada e a correlação.

Foi concretizada a análise estatística com a correlação dos dados, e em seguida, por meio do método de regressão múltipla, encontramos a equação de previsão desejada.

A Figura 45 mostra o resumo da análise estatística, a qual é mais bem delineada nos subitens subsequentes, com delineamento detalhado.

Figura 45 – Fluxograma da análise estatística utilizada.

Fonte: Elaboração própria, 2013.

3.4.3.1 Estatística descritiva

Na Estatística descritiva, estudamos as medidas de tendência central e as com dispersão. As medidas de tendência central utilizadas para a amostra foram a média aritmética, a moda e a mediana. Já para as medidas de variabilidade ou dispersão, utilizamos a variância, o desvio-padrão e os limites também conhecidos como amplitudes.

Por meio do Programa SPSS, encontramos uma ferramenta bastante útil: o boxplot. Esta serviu para analisar como as variáveis utilizadas se comportaram em relação à homogeneidade. Nesse âmbito, a avaliação dos valores atípicos se baseou na diferença dos valores em relação ao intervalo interquartílico para cada conjunto de dados.

3.4.3.2 Inferência estatística

A inferência estatística foi realizada por meio da análise multivariada, com testes de normalidade Shapiro-Wilk. Em seguida, empregamos a Correlação de Pearson para selecionar as variáveis. Estas variáveis foram dispostas em uma reta pelo Método de Regressão Múltipla, e assim encontramos a equação-resposta.

Para as análises dos pressupostos, utilizamos o Teste de Aderência, para averiguar se a distribuição dos dados podia ser assumida igual à distribuição normal pelo Teste de Shapiro-Wilk (S-W). Esta prova foi útil para verificar se uma determinada amostra pode provir de uma população ou distribuição de probabilidade especificada (distribuição normal), a fim de que seja significativo o p ≥ 0,05.

A análise dos pressupostos do modelo de regressão iniciou-se com a avaliação da normalidade dos resíduos. O diagnóstico foi feito pelo Teste de Shapiro-Wilk, o qual verificou se o modelo expressa níveis de significância superiores a 5%, o que aponta para a aceitação da hipótese de normalidade dos resíduos.

Para elaborar a equação de previsão da variável dependente ou variável resultado (geração de resíduos), foi associado para um nível de confiança (1-_{) e} um nível de significância (_{). No caso deste estudo, os parâmetros estabelecidos} foram de 95% e 5%, respectivamente.

Por último, verificamos os princípios de normalidade, linearidade, homoscedasticidade e independência dos residuais, por meio de gráficos. Feitas as análises e satisfeito os princípios de normalidade, aceitamos o modelo.

Para verificar a correlação entre as variáveis, utilizamos o estudo de Correlação de Pearson. Essa relação pode ser verificada com auxílio de um gráfico de dispersão e de um coeficiente de correlação linear, que mede a intensidade da associação linear entre duas variáveis, de caráter quantitativo, e que mostre uma relação de causa e efeito. A opção pelo cálculo da Correlação de Pearson se deu porque envolve valores numéricos ou variáveis quantitativas.

No diagrama da dispersão pode-se analisar a relação entre as variáveis representadas no eixo x, que representa a causa, e o eixo y, representando os efeitos.

Foram feitos os gráficos para verificar a correlação entre: PIB e consumo de água; consumo de energia elétrica x geração dos RSU; PIB e geração dos RSU; consumo de água e geração dos RSU; tempo e geração dos RSU e o IDH e geração dos RSU.

Para esta análise, também empregamos o Coeficiente Linear, que varia entre 0 e 1.

Na Equação (3), calcula-se o Rxy. O valor de Rxy deve pertencer ao intervalo -1 _Rxy1. A sua interpretação é a seguinte:

0,00 _{ R}xy  0,69 = dependência fraca. 0,70 _{ R}xy  1,00 = dependência forte. -0,69 _{ R}xy  0,00 = dependência fraca. -1,00 _{ R}xy  -0,70 = dependência forte.





 

                    



 

n Y Y n X X n Y X XY R_xy 2 2 2 2 (3) 3.4.3.2.1 Regressão múltipla

Um dos objetivos deste estudo é a elaboração de um modelo de previsão da geração dos resíduos sólidos para a Cidade de Fortaleza, até 2011. Para isso, foi necessário fazer um estudo de regressão linear múltipla, visto que, para a previsão do resíduo sólido analisado, há a existem de outras variáveis consideradas independentes entre si.

Para início do estudo, utilizamos a medida média como referência na tomada de decisão, pois esta é considerada a melhor medida preditiva sem o uso de variáveis independentes.

A Correlação serviu para verificar e medir relacionamentos entre duas variáveis. Avançando mais um pouco, é possível prever uma das variáveis em função da outra. Para isso, usamos o método da regressão que, neste caso da pesquisa é o de regressão múltipla, pois há mais de duas variáveis.

A combinação linear de variáveis independentes usadas coletivamente para prever a variável dependente é também conhecida como equação ou modelo de regressão. Uma generalização é a regressão linear múltipla, cujo modelo estatístico utilizado é dado de acordo com a Equação 4:

εi (4), onde,

Y é a variável dependente19 – variável que está sendo prevista ou explicada pelo conjunto de variáveis independentes;

X1, X2,..., Xn são as variáveis independentes20 – variáveis selecionadas como previsora e potencial variável de explicação da variável dependente;

β0, é o intercepto com o eixo y;

β1, β2, ....,βn correspondem aos coeficientes técnicos atrelados às variáveis independentes;

εi é o termo que representa o resíduo ou erro da regressão21_.

Variável dependente ou também conhecida como variável resultado ou saída. 20

Variável independente ou conhecida como previsora.

21_{As diferenças entre o modelo ajustado e os valores superestimados ou subestimados, são} denominadas de resíduos.

Utilizamos o Método dos Mínimos Quadrados22_{para fazer o ajustamento} linear. O modelo ajustado é a melhor reta que representa os dados ou as variáveis independentes.

O objetivo deste método foi usar as variáveis independentes cujos valores são conhecidos, para prever os valores da variável dependente selecionada na pesquisa.

A validação aconteceu pelo Teste de Variância (ANOVA), do modelo proposto para Fortaleza com os indicadores escolhidos (variáveis independentes). Para se afirmar foi necessário que o p-valor fosse menor do que 5% (valor adotado como nível de significância)

Com a certeza da validação do modelo proposto, examinamos as variáveis independentes para a formação do modelo de regressão.

Os coeficientes da equação-resposta para o modelo encontrado foram apresentados, respectivamente, com as variáveis independentes, por intermédio da Estatística do teste t e do nível de significância.

Para o ultimo teste, estudamos se haveria a existência de multicolinearidade dos dados, pois, caso houvesse, prejudicaria a habilidade de previsão do modelo de regressão. Se os índices de proporções de variância fossem maiores do que 0,9 (90%), restaria provada a existência de multicolinearidade dos dados.

Por ultimo, definiu-se a equação-resposta do modelo de regressão para gerar uma projeção da quantidade de RSU para Fortaleza.

Com origem da equação-resposta, aplicamos com os dados existentes para Fortaleza e verificamos que o modelo se comporta de forma aceitável, representando bem os dados.

22_{O Método dos Mínimos Quadrados seleciona a linha que representa a menor soma das diferenças} ao quadrado. A melhor linha é a regressão linear.

No documento Estudos de indicadores de e sua correlação com a geração de resíduos sólidos urbanos na Cidade de FortalezaCE (páginas 137-143)