Análise Exploratória de Dados Espaciais (AEDE)

3.3 Análise de Dados

3.3.2 Análise Exploratória de Dados Espaciais (AEDE)

Um dos grandes desafios modernos diz respeito ao entendimento da distribuição espacial de dados, advindos de fenômenos dos mais diversos campos de conhecimento (Druck et al. 2004). Consequentemente, existe uma demanda pelo desenvolvimento de métodos que levem em consideração a natureza dos dados espaciais e que é suprida pela Análise Exploratória de Dados Espaciais, capaz de prover maneiras de visualizar esses dados, de

3.3. ANÁLISE DE DADOS 41

identificar locais atípicos (outliers espaciais), de descobrir agrupamentos e de sugerir diferentes regimes e modelos espaciais (Anselin 1999). Além das formas mais simples e intuitivas de visualização de dados espaciais, a AEDE também traz um foco sobre o estudo da autocorrelação espacial (Druck et al. 2004), cujos aspectos inerentes serão melhor discutidos a seguir.

Autocorrelação espacial

A autocorrelação espacial é definida como uma avaliação da correlação entre os valores de um atributo nas diferentes localizações espaciais a que esses valores se refe- rem (Andrienko & Andrienko 2006). Em outras palavras, a autocorrelação espacial avalia como a magnitude de uma variável em uma determinada localização é afetada ou depende da magnitude da mesma variável em locais vizinhos (Fotheringham et al. 2000). Quando a autocorrelação espacial é positiva significa que os dados próximos espacialmente tam- bém são similares em termos de seu valor e se agrupam no espaço, enquanto que, quando a autocorrelação espacial é negativa, há uma heterogeneidade dos valores dos dados pró- ximos espacialmente (Fotheringham et al. 2003). Esses dois casos são ilustrados nas Figuras 3.6a e 3.6b, respectivamente. Também há o caso de ausência de qualquer relação entre a localização das observações e seus valores (ver Figura 3.6c), referida na literatura como aleatoriedade espacial (Anselin & Piras 2009).

Figura 3.6: Exemplos de autocorrelação espacial em uma grade 5 × 5.

(a) Autocorrelação positiva. (b) Autocorrelação negativa. (c) Aleatoriedade espacial.

Fonte: Anselin & Piras (2009, p. 11).

Matriz de proximidade espacial

Nesse contexto, surge a definição fundamental da matriz de proximidade espacial ou matriz de vizinhança, que estabelece o arranjo ou a topologia espacial dos dados (Anselin 1999, Anselin & Piras 2009). Segundo Druck et al. (2004), dado um conjunto de n áreas, a matriz de proximidade W é n × n e positiva, de modo que cada elemento wi j mede a

proximidade entre as áreas i e j a partir de alguma especificação de vizinhança. Geral- mente, esse critério de vizinhança se baseia em contiguidade, onde um dado elemento wi j é unitário quando duas áreas geográficas compartilham uma borda ou tem seus centroides a uma distância pré-estabelecida, e wi j é zero caso contrário (Anselin 1999). As especifi- cações ou critérios de vizinhança mais comuns são a contiguidade simples do tipo Torre (Rook), em que áreas vizinhas compartilham apenas bordas, e o tipo Rainha (Queen), em que áreas vizinhas compartilham bordas e vértices (Feola & Butt 2017). Esses tipos de contiguidade são ilustrados na Figura 3.7.

Figura 3.7: Critérios de vizinhança mais comuns.

(a) Torre (Rook). (b) Rainha (Queen).

Fonte: Tenney (2013, p. 69).

Outra prática comum é a normalização das linhas da matriz de proximidade espacial, de modo a soma de seus elementos seja igual à unidade (Druck et al. 2004, Anselin & Piras 2009). Para fins elucidativos, um exemplo de obtenção da matriz de vizinhança para uma região fictícia é exibido na Figura 3.8, em que os elementos da matriz foram normalizados e retratam as áreas adjacentes (com bordas compartilhadas) da região mencionada.

Figura 3.8: Exemplo de matriz de vizinhança normalizada.

3.3. ANÁLISE DE DADOS 43

Média móvel espacial

Outra definição importante é o de média móvel espacial, também referenciada na literatura como spatial lag e definida como uma média ponderada das variáveis pelas localizações vizinhas (Anselin 1999). É uma maneira de estudar a variação da disposição espacial, além de produzir uma superfície geralmente com menores flutuações e, por isso, sendo interpretado também como um moderador ou suavizador espacial (Anselin 1999, Druck et al. 2004). De acordo com Anselin (1999), a média móvel espacial para a variável yna i-ésima área pode ser calculada utilizando-se a matriz de vizinhança normalizada da seguinte forma: [Wy]i= n

∑

j=1 w_{i j}y_j (3.5)

Estatísticas para autocorrelação espacial

Um aspecto fundamental da AEDE e, provavelmente, uma das estatísticas mais uti- lizadas para mensurar a autocorrelação espacial é o chamado Teste de Moran I, com as variações de seus índices globais e locais (Anselin & Piras 2009). Uma estatística global significa que um só valor é mensurado para toda a região em análise, enquanto que, es- tatísticas locais consistem em diferentes valores para as localizações distintas dentro da região em estudo (Fotheringham et al. 2003).

De acordo com Anselin & Piras (2009), o Índice Global de Moran I para uma variável xé dado pela seguinte expressão formal:

I= n

∑i∑jwi j(xi− µ)(xj− µ) ∑i(xi− µ)2

(3.6) Onde n é o número de áreas, S0= ∑i∑jwi j é a soma de todos os elementos da matriz de vizinhança e µ é a média de x para todas as observações. Vale salientar que, caso a matriz de vizinhança W seja normalizada, n/S0é igual à unidade. O Índice de Moran I varia entre −1 e 1, em que valores positivos indicam autocorrelação positiva, valores negativos indicam autocorrelação negativa e o valor nulo indica aleatoriedade espacial (Druck et al. 2004). Ainda de acordo com Druck et al. (2004), para validar o índice estatistica- mente, associa-se um teste de pseudo-significância, cuja hipótese nula é a independência espacial, ou seja, seu valor se iguala a zero (I = 0).

Uma forma gráfica de interpretar o Índice de Moran I é como a inclinação da reta de regressão do chamado Diagrama de Espalhamento de Moran (Anselin & Piras 2009). A ideia geral do diagrama é comparar os valores de um atributo normalizado z com a média dos seus vizinhos, por meio de um gráfico bidimensional em que z se distribui no eixo x e W z (onde W é a matriz de vizinhança normalizada), no eixo y (Druck et al. 2004). A Figura 3.9 exibe um exemplo de Diagrama de Espalhamento de Moran. Pontos nos quadrantes Q1(valores positivos, médias positivas) e Q2(valores negativos, médias negativas) apresentam autocorrelação espacial positiva, ao passo que os pontos nos quadrantes Q3 (valores positivos, médias negativas) e Q4 (valores negativos, médias positivas) sugerem autocorrelação espacial negativa (Druck et al. 2004). Sendo assim, agrupamen-

tos espaciais ocorrem nos quadrantes Q1 e Q2, também referidos como “Alto-Alto” e “Baixo-Baixo”, e os outliers espaciais estão presentes nos quadrantes Q3e Q4, chamados de “Alto-Baixo” e “Baixo-Alto” (Anselin & Piras 2009).

Figura 3.9: Exemplo de Diagrama de Espalhamento de Moran.

Fonte: Druck et al. (2004).

Conforme mencionado anteriormente, além da estatística global, também há uma va- riação local do Índice de Moran. Medidas locais são úteis principalmente quando há um grande número de áreas dentro da região em estudo, permitindo a investigação de padrões em mais detalhes (Druck et al. 2004). Segundo Anselin & Piras (2009), o Índice Local de Moran é parte da classe de Indicadores Locais de Associação Espacial (do inglês, Local Indicators of Spatial Associationou LISA) e, de acordo com Druck et al. (2004), ele pode ser expresso para cada área i a partir dos valores normalizados de um atributo zicomo:

I_i= zi∑ n

j=1wi jzj ∑nj=1z2j

(3.7) Ainda segundo Druck et al. (2004), a validade estatística dessa versão local do Índice de Moran é calculada de maneira análoga à da versão global e é útil gerar um mapa indicando as regiões em que esse índice é significativo.

Por fim, a ideia geral desta etapa metodológica, dadas as definições necessárias, é o estudo dos dados da Uber sob a ótica espacial descrita. Busca-se observar como o serviço se comporta espacialmente, se há a formação de agrupamentos ou se existem outliers espaciais. De maneira análoga à AED, a AEDE também objetiva a busca de indícios que evidenciem se o serviço da Uber retrata a dimensão da habitabilidade.

No documento Uma abordagem orientada a dados para a criação de um indicador de habitabilidade baseado na API da UBER (páginas 60-64)