• Nenhum resultado encontrado

Fonte: elaboração própria, com utilização da ferramenta ArcGIS® ArcScene 9.3.

Alocação Aleatória das Entrevistas em cada Setor Censitário previamente sorteado

Setores Censitários Urbanos Não Especiais

Distritos Setores Censitários

Definição do número de entrevistas por Setor Censitário (original)

Exclusão (aleatória) das entrevistas não válidas (missing values em Renda e/ou Valor de Conta de Luz)

SC 1 SC 3 SC 2 Utilização do PLANO AMOSTRAL da Pesquisa ABRADEE : Aplicação das Regras de

Distribuição das Entrevistas Setores Censitários Sorteados Aleatoriamente Neste exemplo: Pontos Alternativa 6

4.2.3 APLICAÇÃO DE GWR SOBRE AS AMOSTRAS REALOCADAS

Conforme detalhado no tópico 4.2.1, a Pesquisa ABRADEE é realizada com uma amostra base (625 entrevistas) e uma expansão por subregiões, conforme o interesse da distribuidora de energia elétrica. Nesses termos, as entrevistas adicionais realizadas desbalanceiam a amostra base para garantir a representatividade das subregiões, fazendo com que todas as entrevistas passem a ter pesos individuais diferentes quando analisadas conjuntamente. Esse peso é proporcional ao número de domicílios de cada subregião. Além disso, a invalidação de alguma entrevista realizada (pela existência de missing values em renda ou valor da conta de luz) aumenta o peso das entrevistas restantes de cada subregião.

Assim, cada entrevista de cada rodada da Pesquisa ABRADEE no município de São Paulo utilizada neste estudo possui um peso diferente, o que culmina na incorporação desse conjunto de pesos aos modelos de regressão (inclusive espaciais) aplicados.

A regressão linear tradicional, OLS, é, pois, adaptada para a incorporação da ponderação das observações para ser aplicada aos dados da Pesquisa ABRADEE, conforme descrito abaixo. Trata-se de um modelo linear ponderado, ou Weighted Linear Model (WLM).

i ip p i i i

x

x

x

y

1

1

2

2

+

, ou (4.2)

ε

β

+

= X

y

, (4.3)

onde y é a variável dependente, X′=[qixij]n×p é a matriz de n observações por p variáveis independentes (x′ ) em que cada célula da linha i da matriz original ij X =[xij]n×pé multiplicada pelo peso qi da entrevista i , e

ε

é o termo de erro, independente e da forma ~N(0, 2I)

σ

ε ,

conforme Equações 3.2 e 3.3 anteriores, descrevendo o modelo linear. A diferença está na aplicação de pesos diferentes34 por entrevista (sample weight ou sample case weight), representada pela matriz diagonal q =[qi]n×n, em que o peso q é multiplicado à entrevista i. i

34 Utilizou-se a notação q para o vetor de pesos, para não haver confundimento com o número p de variáveis independentes, ou com a ponderação w, que está sendo utilizada para ponderações baseadas em distância ou índices das matrizes de vizinhança nas regressões espaciais.

Convencionamos adotar n q n

i i

=

=1

. Portanto, X =qX. Assim, no caso tradicional (sem ponderação por observação), temos qi = ,1 ∀i , e q é a matriz identidade.

A mesma estratégia de incorporação de um vetor de pesos é feita para a GWR35, que passa a ter, além da matriz de proximidade W(gi) de cada amostra local de cada observação gi, a matriz de ponderação q(gi) com os pesos de cada entrevista vizinha, de acordo com o distrito em que está localizada:

ε

β

β

β

β

+

′+

+

+

+

=

g

g

x

g

x

p

g

x

p

g

y(

)

0

(

)

1

(

)

1 2

(

)

2

(

)

, (4.4)

onde g indica um vetor dos n pontos, no espaço bidimensional, os parâmetros do vetor β(g) são específicos para cada observação i de localização g =i (ui,vi), o termo de erro

ε

é suposto independente e de comportamento ε ~N(0,σ2I) e o vetor de variáveis independentes X ′ é tal que X′(g)=[xij′]n×p =[qixij]n×p .

Aplicaremos os modelos WLM e GWR (conforme Equação 4.4) sobre as amostras da Pesquisa ABRADEE de 2004, 2006, 2007, 2008 e 2009, utilizando as entrevistas localizadas: (i) no centróide dos distritos, (ii) na sede dos distritos, e (iii) conforme resultado da aplicação das 6 alternativas de alocação, descritas no tópico 4.2.2. O modelo SAR será aplicado para os casos (i) e (ii) acima também.

Serão realizadas 1.000 iterações para cada alternativa para cada rodada da Pesquisa ABRADEE. Para cada iteração será realizada a minimização do AIC para determinação do tamanho mais adequado de cada amostra local. Adotamos o kernel adaptável (número fixo de vizinhos), devido à grande variação de densidade de domicílios encontrada no município de São Paulo.

35 Para cálculo dos ganhos dos diversos modelos (OLS e GWR) considerando diferentes pesos para as

entrevistas, calculamos o Weighted Sum of Squares:

= − = n i i i i y y q WSS 1 2 ) ˆ

( , que se reduz ao tradicional

Residuals Sum of Squares:

= − = n i i i y y RSS 1 2 ) ˆ ( quando qi = ,1 ∀i .

Os resultados, por alternativa e por rodada, serão analisados através de diagramas box plots, para avaliarmos comparativamente a variação (média, mediana e distribuição) dos coeficientes de explicação (R2) de cada conjunto de regressões por alternativa – por isso, a

opção por muitas (1.000) iterações. O objetivo é verificarmos se e como a localização das entrevistas em pontos alternativos ao centróide ou à sede impacta na relação de associação entre a Renda e o Consumo de Energia Elétrica dos domicílios amostrados na Pesquisa ABRADEE ao longo dos anos, em comparação com os modelos de pontos espalhados.

Análises exploratórias complementares serão realizadas, como a associação entre o indicador de auto-correlação espacial I de Moran e o R2 de cada iteração, a avaliação das propriedades da vizinhança nas amostras locais, via convex hull36, de cada iteração e o uso de estatísticas de homogeneidade e agrupamento espacial.

Especificamente na rodada de 2009 da Pesquisa ABRADEE, foi realizada uma aplicação piloto no campo da AES Eletropaulo, coordenada pela ABRADEE, em que se obteve a localização geográfica de cada domicílio entrevistado. O objetivo dessa aplicação foi o de avaliar os ganhos da aplicação de técnicas de estatística espacial na predição e avaliação dos fatores que influenciam a satisfação dos clientes com os serviços prestados pela distribuidora de energia elétrica (FRANCISCO, 2009).

Para tal, foi incluída uma pergunta específica no questionário da pesquisa para coletar o “número” (código) do cliente entrevistado (vide destaque no Anexo C). A partir desse código, e sem que a distribuidora de energia pudesse identificá-lo, por questões de sigilo e confidencialidade, a localização geográfica do ativo elétrico mais próximo ao domicílio (informação que consta da base de dados de clientes da AES Eletropaulo, conforme descrito no tópico 4.1.3) foi fornecida pelo instituto de pesquisa à AES Eletropaulo, e disponibilizada para este estudo. Na realidade, uma base de dados com a localização geográfica de cada código do cliente da AES Eletropaulo foi cedida ao instituto de pesquisa apenas para a finalidade deste experimento.

36 Convex hull, envoltória convexa, fecho convexo ou invólucro convexo, é o menor polígono convexo que contém um conjunto de pontos de um subconjunto S de um espaço vetorial V . No espaço bidimensional, a figura a seguir exemplifica:

Vale notar que a localização do ativo elétrico mais próximo (denominado ponto de entrega de energia) é normalmente insuficiente para se identificar o domicílio, uma vez que existem, em média, cerca de 40 clientes associados a cada ponto de entrega – o que garante a não infração dos termos de confidencialidade e sigilo acordados nessa aplicação piloto.

No caso de problemas de digitação, coleta do código do cliente ou identificação na base de dados, o instituto de pesquisa forneceu à distribuidora um endereço aproximado (variação aleatória do número da casa, em até 500 metros), sem complemento, para que pudesse ser feito o georreferenciamento (busca por endereço, ou address matching) sem grande impacto na região de localização efetiva do domicílio. O Esquema 4.12 mostra a estrutura que viabilizou o piloto da Pesquisa ABRADEE 2009.

Esquema 4.12: Diagrama da Aplicação Piloto da Pesquisa ABRADEE 2009 na AES Eletropaulo