• Nenhum resultado encontrado

MÉTODOS E FERRAMENTAS DE ANÁLISE ESTATÍSTICA No estudo realizado verificou-se que na maior parte da

3 PROCESSO DE ANÁLISE DAS EMISSÕES DE POLUENTES

4.3 MÉTODOS E FERRAMENTAS DE ANÁLISE ESTATÍSTICA No estudo realizado verificou-se que na maior parte da

bibliografia consultada, as pesquisas sobre emissões são realizadas em laboratórios, utilizando-se, ou uma amostra muito pequena de veículos ou amostra de um único motor ou veículo, focando principalmente no efeito da variação das condições de operação nas emissões dos poluentes em função do teste realizado ser do tipo dinâmico ou estacionário. Nas poucas publicações encontradas em português, dados quantitativos são apresentados sobre a emissão de poluentes veiculares, porém sem

especificar a natureza estatística dos mesmos bem como as suas possíveis causas mecânicas originárias.

Inicialmente, deve-se verificar a consistência dos dados da amostra e suas principais características.

4.3.1 Verificação dos Dados Atípicos (outliers)

De acordo com Ribas e Vieira (2011), a informação de qualidade constitui a viga mestra que alicerça a excelência dos resultados da pesquisa científica. É indispensável que seja realizada uma exploração inicial dos dados para verificar se há falta de observações ou casos atípicos, se as hipóteses associadas à ferramenta escolhida foram adequadamente atendidas, bem como identificar se os eventuais afastamentos das condições ideais poderão comprometer seriamente os resultados da análise.

É possível que sejam identificados valores excessivamente reduzidos ou elevados que são, usualmente, denominados outliers, os quais podem distorcer substancialmente os resultados. Eles podem ser causados por registro (lançamento) equivocado do dado ou podem estar presentes no fenômeno estudado, embora não tenham sido antecipados pelo pesquisador (RIBAS; VIEIRA, 2011).

Convém observar que amostras grandes podem, eventualmente, exibir observações que aparentemente são atípicas, mas que não são essencialmente outliers. De fato, à medida que a amostra aumenta, é ampliada a chance de serem incluídos casos extremos que constituem observações legítimas da população, não sendo, dessa maneira, necessária, nem recomendada a sua remoção (RIBAS; VIEIRA 2011).

No presente trabalho, esse exame inicial foi conduzido com análise das estatísticas descritivas de todas as variáveis, utilizando-se um software aplicativo científico (programa de computador) chamado

Statistical Package for the Social Sciences for Windows - SPSS, isto é,

um software para análise estatística de dados, utilizando-se menus e janelas de diálogo, que permite realizar cálculos complexos e visualizar seus resultados (GUIMARÃES, 2013).

Inicialmente, fez-se a transformação das oito variáveis quantitativas de estudo para escores padronizados, iniciando-se com média zero e desvio padrão 1, com a intenção de procurar valores menores que -3, -4, -5 ou maiores que +3, +4, +5. Caso esses valores existam, há um indicativo que tais valores podem ter sido digitados incorretamente e deve-se analisar a necessidade de proceder a correção.

Nesta análise, para a primeira das variáveis, através de filtragens, não foram encontrados dados inferiores a -3. Por outro lado, foram encontrados 123 valores superiores a +3, 102 valores superiores a +4 e 82 valores superiores a +5. Sendo esta quantidade muito grande, provavelmente não provém de erros de digitação, devendo estar presentes no fenômeno estudado.

Após todos os testes e filtragens realizados com todas as 8 variáveis e visualização total dos dados contendo todas as frequências, para busca de elementos que pudessem estar muito afastados um dos outros, chegou-se a uma particularidade em termos de distribuição, ou seja, os dados se alongam para a direita, com valores muito maiores que a média.

Conclui-se por fim o que o alongamento das distribuições para a direita mostrou-se ser uma característica destas variáveis estudadas, explicado pelo fato que certos veículos realmente emitem quantidades muito altas de poluentes, em especial os mais antigos. Outro aspecto a considerar é do princípio garantido pelas normas do INMETRO de que os dados foram obtidos de equipamentos calibrados. Conclui-se, assim, como improvável a presença significativa de outliers nos dados apresentados.

4.3.2 Testes Estatísticos de Aderência

A distribuição de uma variável quantitativa registra seus valores numéricos e a frequência de ocorrência de cada valor onde a melhor maneira de representar uma distribuição é graficamente. Em virtude do tamanho da amostra ser muito grande, a forma gráfica que melhor pode representar estas distribuições das variáveis é a utilização do gráfico tipo histograma9.

Seguem os histogramas de todas as oito variáveis, com a tentativa inicial de determinar a aderência com a curva normal, sendo as unidades do HCc em (ppm) e o COc em (% volume). Para melhor visualização das formas na apresentação dos gráficos, eliminou-se dos dados os 5% valores mais altos. Para as análises estatísticas posteriores foram utilizados todos os dados.

9

Histograma é um gráfico que mostra a distribuição de frequência ou de frequência relativa entre os valores de uma única variável (MOORE, 2002 apud FERNANDES 2009).

Figura 4.2 - Histogramas das Oito Variáveis, com Curva Normal Associada.

É importante definir em que tipo de distribuição estatística os dados se enquadram, para posteriormente identificar o tipo de teste que pode ser utilizado para tirar as conclusões do estudo (BRAVIANO et al 2005).

Inicialmente, testou-se a aderência de cada conjunto de dados associados às oito variáveis com a distribuição Normal. Para tanto, utilizou-se o teste Kolmorogov-Sminorv.

Todos os oito testes (de cada uma das variáveis) concluíram com probabilidade de significância10 p < 0,001, que os dados não seguem a distribuição Normal, o que também pode ser facilmente percebido nos histogramas apresentados anteriormente. Isso significa que não é possível utilizar nas análises comparativas, testes paramétricos (por exemplo, o teste “t” para dois grupos de amostras ou os testes de ANOVA – Análise de Variância, para testar diferenças entre diversas situações e para 2 ou mais variáveis).

O teste de Kolmorogov-Sminorv apresentou o mesmo resultado na tentativa de aderência às distribuições do tipo Uniforme, Poisson e Exponencial.

Sendo assim, foi necessário utilizar nas análises estatísticas somente testes de hipóteses não paramétricos.

10

Significado de “provavelmente verdadeiro” e, portanto, não resultante de uma situação aleatória. Quando o teste estatístico diz que um resultado é “altamente significativo”, isto significa que a hipótese que está sendo testada é muito provavelmente verdadeira (BARBETA, 2012).

4.3.3 Testes de Hipóteses

Para conseguir respostas adequadas aos objetivos específicos determinados no início desta pesquisa, foi elaborado um conjunto de hipóteses acerca da amostra aqui estudada e utilizaram-se testes estatísticos específicos (não paramétricos) para confirmá-las ou não, por meio da inferência estatística.

Inferir estatisticamente significa decidir se uma hipótese é verdadeira ou não, baseando-se em métodos que levam em conta incertezas e variações provenientes das amostras. Existe, portanto, uma probabilidade de erro associada à decisão, que pode ser minimizada em função do modelo estatístico usado para realizar a análise de dados (BRAVIANO et al, 2005).

Para tanto, algumas premissas foram definidas:

 Os testes das concentrações de HCc devem ser feitos somente com os dados de 2011, pois até 2010 somente media-se o HC, sem a correção;

 Os testes das concentrações de COc devem ser feitos com os dados completos, isto é, 2010 e 2011;

 Os testes das hipóteses devem ser filtrados de acordo com as fases de redução dos poluentes do PROCONVE em função dos anos de fabricação dos veículos, visando não influenciar seus resultados conclusivos, excetuando-se as hipóteses 1 e 2. Portanto, cada uma das hipóteses foi testada 5 vezes, para cada um dos conjunto de veículos com das de fabricação nas seguintes faixas:

 Fase L1: veículos fabricados até 1991

 Fase L2: veículos fabricados entre 1992 a 1996  Fase L3: veículos fabricados entre 1997 a 2004  Fase L4: veículos fabricados entre 2005 a 2008  Fase L5: veículos fabricados entre 2009 a 2011

A seguir são apresentadas as hipóteses, as observações para a realização dos testes e a indicação de qual teste melhor se enquadrou para cada caso.

1) Hipótese 1: veículos mais antigos (fabricados até 1996)