• Nenhum resultado encontrado

Sobreposição geográfica, Junção espacial e Sumarização Associação da Área de Ponderação aos Clientes AES Eletropaulo e Cálculo do Consumo Médio de Energia Elétrica por Área de Ponderação

Área de Ponderação

Renda Domiciliar Média, Classe Econômica Brasil (pontuação média), e Consumo de Energia Elétrica Residencial Médio

Área de Ponderação

Renda Domiciliar Média e

Classe Econômica Brasil (pontuação média)

Cliente Residenciais AES Eletropaulo

A partir dessas matrizes de vizinhança, serão testados modelos de regressão espacial SAR e GWR, além do modelo básico, inicial, de regressão linear simples (OLS). Esses modelos espaciais, quando aplicados sobre uma base de polígonos, exigem continuidade na cobertura do espaço. Nesses termos, a existência de outliers, ou pontos extremos, não determinará a retirada desse indivíduo da amostra, para que se evite a formação de “buracos” (polígonos faltantes) na área estudada.

Além dos modelos espaciais tradicionais, será implementada uma aplicação combinada das técnicas GWR e SAR. A combinação não é própria, uma vez que os modelos são intrinsecamente diferentes (local e global, respectivamente). Porém, essa aplicação utilizará o princípio da GWR (realização de n regressões, cada qual com sua amostra local para a estimação da variável dependente no polígono [área de ponderação] gi), e o termo espacial auto-regressivo em cada amostra local, próprio da técnica SAR em seu Spatial Lagged Auto-regressive model. A formulação dessa técnica mista adotada está a seguir:

ε

β

ρ

+

+

=

(

)

(

)

(

)

(

)

(

)

)

(g

g

W

g

y

g

X

g

g

y

, (4.1)

onde g indica um vetor dos n polígonos, no espaço bidimensional, W(g) é a matriz de proximidade espacial (conforme discutido no tópico 3.4.1 e apresentada na Equação 3.7), específica para cada polígono g do vetor g, o produto i W(g)y(g) expressa a dependência espacial em y na amostra local de cada gi e ρ(g) é o coeficiente espacial do termo auto- regressivo na amostra local do polígono gi. O conjunto de variáveis independentes X tem contribuição específica β em cada amostra local do vetor g (por isso é X(g)β(g)), que é, por sinal, não espacial. O termo de erro

ε

mantém seus pressupostos conforme a Equação 3.2 (independência e ~ N(0, 2I)

σ

ε ) para cada amostra local.

Esse modelo, criado originalmente neste estudo, é oportunamente denominado de GWR “global” com SAR “local”, ou simplesmente GWR+SAR. A amostra local adotada para cada polígono pode ser determinada por adjacência, distância ou fixando-se um número k de vizinhos – nos últimos dois casos, utilizando a minimização do AIC ou CV para determiná-la otimamente (FOTHERINGHAM; BRUNSDON; CHARLTON, 2002).

A Figura 4.3 ilustra as diferenças dos modelos que serão aplicados na Investigação Territorial, e o Apêndice A apresenta o código dessa implementação em ferramenta estatística R 2.9.1 (R DEVELOPMENT CORE TEAM, 2009).

OLS SAR GWR GWR+SAR

OLS: y= Xβ +ε

SAR: yWy+Xβ+ε

GWR: y(g)=β0(g)+β1(g)x12(g)x2+ +βp(g)xp

GWR+SAR: y(g)=ρ(g)W(g)y(g)+X(g)β(g)+ε

Figura 4.3: Diferenças entre os Modelos de Regressão Linear OLS, SAR, GWR e GWR+SAR Fonte: elaboração própria, com utilização da ferramenta ArcView®

GIS 3.2.

As seguintes regressões serão aplicadas:

1 OLS – Regressão Linear Simples

2 GWR com kernel adaptável (k vizinhos) gaussiano a partir de minimização do AIC – kGauss 3 GWR com kernel adaptável (k vizinhos) bi-square a partir de minimização do AIC – kBisquare 4 SAR com matriz de adjacência de 1ª ordem

5 SAR com matriz de adjacência de 2ª ordem 6 SAR com matriz de adjacência de 3ª ordem

7 SAR com matriz de adjacência do tipo Relative Neighbor 8 SAR com matriz de adjacência do tipo Gabriel’s Graph 9 SAR com matriz de adjacência do tipo Sphere of Influence 10 SAR com matriz de proximidade com kGauss vizinhos 11 SAR com matriz de proximidade com kBisquare vizinhos 12 GWR+SAR com matriz de adjacência local de 1ª ordem 13 GWR+SAR com matriz de adjacência local de 2ª ordem 14 GWR+SAR com matriz de adjacência local de 3ª ordem 15 GWR+SAR com matriz de proximidade com kGauss vizinhos 16 GWR+SAR com matriz de proximidade com kBisquare vizinhos

x : Consumo de Energia Elétrica Residencial y : Renda Domiciliar

Algumas matrizes de vizinhança aplicadas ao termo espacial auto-regressivo na SAR têm caráter exploratório. O objetivo é avaliar a influência da definição de vizinhança adotada na mensuração da dependência espacial do fenômeno estudado. Tyszler (2006) observou comportamento ligeiramente melhor das matrizes com pesos ponderados por distância.

A partir de uma rede de triângulos Delaunay, que conecta as áreas de ponderação (em que cada área está sempre conectada a seus n vizinhos mais próximos), o grafo Relative Neighbor é definido pela seguinte relação:

x e y são vizinhos ⇔ d(x,y)≤

min(max(d(x,z),d(y,z))

zS)

, (4.2) em que d( ) é a distância entre as áreas, S é o conjunto de pontos e z um ponto arbitrário (TOUSSAINT, 1980).

O grafo Gabriel é definido pela seguinte relação:

x e y são vizinhos ⇔ d(x,y)≤min

(

(d(x,z)

2

+d(y,z)

2

)

12

zS

)

, (4.3) em que x, y, z e S são conforme acima (MATULA; SOKAL, 1980).

O grafo Sphere of Influence (esfera de influência) é definido a partir de um conjunto finito de pontos S. Seja r a distância do ponto x (associado à área x) ao vizinho x mais próximo em S, e Cx o círculo centrado em x com raio rx. Assim (KIRKPATRICK; RADKE, 1985),

x e y são vizinhos ⇔ C

x e

C

y

se interceptam em pelo menos 2 pontos

. (4.4)

Adicionalmente, análises exploratórias da distribuição espacial do coeficiente de determinação R2, dos parâmetrosβ e ρ das regressões e do índice I de Moran serão realizadas a partir da variação das matrizes de vizinhança – em especial, com a variação do número k de vizinhos.

4.2 INVESTIGAÇÃO DOMICILIAR

O conjunto de dados analisado na Investigação Domiciliar é a Pesquisa de Satisfação do Consumidor Residencial Urbano da Associação Brasileira dos Distribuidores de Energia Elétrica (doravante Pesquisa ABRADEE), aplicada nos anos 2004, 2006, 2007, 2008 e 2009, sempre durante o mês de Março. Essa pesquisa é domiciliar e foi aplicada na área de concessão da AES Eletropaulo. Os resultados das entrevistas realizadas no município de São Paulo foram disponibilizados para este estudo.

4.2.1 PESQUISA ABRADEE

A Pesquisa ABRADEE é realizada no setor elétrico brasileiro desde 1999, aplicando-se simultaneamente para muitas das concessionárias brasileiras de distribuição de energia elétrica que são associadas da ABRADEE (40 em 2004, 43 em 2005, 48 em 2006, 44 em 2007, 45 em 2008 e 49 em 2009) (INNOVARE, 2009), abrangendo a imensa maioria dos consumidores residenciais brasileiros (99% em 2009, cerca de 53 milhões de domicílios). Sua realização conjunta, além de garantir a comparabilidade dos resultados devido à uniformidade metodológica e à simultaneidade de aplicação, possibilita redução de custos devido à economia de escala (ABRADEE, 2003). Essa pesquisa avalia a satisfação geral dos clientes, itens de qualidade do serviço fornecido e imagem da concessionária, e permite a classificação das empresas e a premiação das melhores colocadas nas diversas categorias. A pesquisa foi aplicada, de 1999 a 2008 pelo Instituto Vox Populi e em 2009 pelo Instituto Innovare, ambos sediados em Belo Horizonte.

A pesquisa pode ser dividida em duas partes: (i) uma pesquisa de importância, na qual o respondente deve ordenar e quantificar a importância de cada um dos atributos dentro de suas respectivas áreas e entre cada uma das áreas, e (ii) a pesquisa de satisfação e fidelidade, na qual são obtidas as avaliações referentes à satisfação com os atributos de Qualidade e Preço e à fidelidade do cliente em relação à distribuidora.

São cinco áreas de Qualidade avaliadas: Fornecimento de Energia, Informação e Comunicação com o Cliente, Conta de Luz, Atendimento ao Cliente e Imagem. Essas áreas

formam um conjunto de 29 atributos28. A média de satisfação de todos os atributos, declarada pelos respondentes, ponderada pela importância atribuída pelos respondentes ao mesmo conjunto de atributos origina o Índice de Satisfação com a Qualidade Percebida (ISQP) da concessionária, e é utilizado para classificação (ranqueamento) e premiação das empresas do setor, segundo categorias por região e porte, no Prêmio ABRADEE. Os resultados do ISQP contribuem em 25% com a pontuação geral da distribuidora de energia nesse prêmio (ABRADEE, 2008).

A área de Valor Percebido compreende a avaliação do Preço (ABRADEE, 2003), contempla 4 atributos e origina o Índice de Satisfação do Cliente com o Preço Percebido (ISCP).

A pesquisa é domiciliar com planejamento amostral probabilístico estratificado, o que garante a representatividade da distribuidora de energia elétrica pesquisada. A população alvo é composta de clientes residenciais da zona urbana da área de concessão. O respondente é o chefe de família, ou cônjuge, de um domicílio de residência permanente do entrevistado e de uso exclusivamente residencial, cujo medidor de energia seja próprio, com fornecimento regularizado, com o valor da conta de energia diferente de zero, alfabetizado, e que possa informar a renda mensal total da família e do chefe da família. Além disso, nem o respondente nem membros de sua família podem trabalhar na concessionária que está sendo pesquisada. As entrevistas têm duração média de 40 a 50 minutos, conforme o ano de aplicação.

Para garantir a representatividade da concessionária, são realizadas 625 entrevistas29 em toda sua área de concessão, o que garante, para o universo de cada distribuidora, um nível de confiança de 95,5% e uma margem de erro de 4% (ABRADEE, 2003; INNOVARE, 2008). A distribuição se dá a partir da classificação dos municípios em estratos por número de consumidores residenciais, ordenados previamente e divididos de forma a buscar a representatividade aproximada de 20% para cada estrato. Busca-se, pois, a composição de 5 estratos para cada distribuidora pesquisada. Em seguida, calcula-se o número de municípios que farão parte da amostra, utilizando a fórmula de alocação ótima de

28 Até 2005 eram 26 atributos. Em 2006, um novo atributo de Atendimento ao Cliente foi adicionado, e em 2007 dois novos da área de Imagem da Empresa. Em 2009, os atributos da área de Imagem foram revistos, mas foi mantido o total de 29 atributos.

29 São 625 entrevistas para as distribuidoras com 500 mil consumidores ou mais (que são 29 das 63 do Brasil). Para distribuidoras de energia com até 500 mil consumidores são realizadas 400 entrevistas (nível de confiança de 95,5% e margem de erro de 5%).

Neyman (NEYMAN, 1934), e o número de municípios a serem sorteados dentro de cada estrato (ABRADEE, 2003; INNOVARE, 2008).

Opcionalmente, é facultada à distribuidora a contratação da expansão da amostra por regiões específicas. Essa expansão garante a representatividade da região pesquisada, através da realização de entrevistas adicionais por região, para completar 100, 150, 200 ou 277 casos, compreendendo uma margem de erro por região de 10%, 8%, 7% ou 6%, respectivamente.

Após o sorteio dos municípios pesquisados, é realizado um sorteio dos setores censitários, que são unidades geográficas definidas pelo IBGE para dividir o território brasileiro e realizar o controle cadastral da coleta do Censo (IBGE, 2002) e englobam, aproximadamente, de 200 a 300 domicílios cada. Em seguida, são sorteados os domicílios dentro de cada setor censitário, segundo técnicas de arrolamento e pesquisa domiciliar já tradicionais. São realizadas cerca de 5 entrevistas por setor censitário (INNOVARE, 2008).

São abordados cerca de 2,1 a 2,5 domicílios para cada entrevista realizada. As principais razões para a não realização da entrevista são: domicílio vazio ou desabitado (60,4%), recusa (14,2%) e crivos de controle e cotas de renda (13,6%) (INNOVARE, 2009).

A pesquisa traz informações de: (i) caracterização socioeconômica e demográfica da família: sexo e idade do respondente, quantidade de pessoas no domicílio, renda mensal da família e do chefe da família, e classe econômica segundo o Critério Brasil30; e (ii) variáveis de caracterização de consumo de energia elétrica: valor médio da conta de luz, percepção do preço da energia elétrica, e comparação do fornecimento de energia elétrica com serviços de água, telefone e gás. O questionário completo da Pesquisa ABRADEE está apresentado no Anexo C.

Na rodada de 2005, a pergunta sobre renda familiar coletada em reais (e não em estratos de salários mínimos) não foi realizada (VOX POPULI, 2005). Dessa forma, não pudemos utilizar as técnicas de regressão linear adotadas para as demais rodadas e, por isso, não consideramos os resultados de 2005 neste estudo.

30 Apenas até 2004 a classe econômica do Critério Brasil foi coletada. Nos anos subseqüentes a posse de bens duráveis específica para o CCEB foi retirada do questionário.

O conjunto de variáveis socioeconômicas e demográficas levantado pela pesquisa e utilizado neste estudo é descrito no Quadro 4.4.

Variável Tipo dos Dados (Natureza) Descrição

Distrito Nominal Distrito (de São Paulo) ou Município em que está o Domicílio

Subregião Nominal Subregião pesquisada

Tipo do

Questionário Nominal Amostra ou expansão

Gênero Nominal Gênero (masculino, feminino) do respondente

Idade Ordinal (7 classes) Idade do Entrevistado: até 18 anos, de 18 a 25, de 26 a 35, de 36 a 45, de 46 a 55, de 56 a 65, mais de 65 anos Número de

Pessoas Contínuo Número de pessoas que moram no domicílio

Escolaridade Ordinal Escolaridade (do entrevistado): categorizado em 5 classes até 2005 e em 8 a partir de 2006 Classe de Renda

do Domicílio

Ordinal (7 classes)

Renda do domicílio – as classes correspondem a intervalos de salários mínimos, conforme valor à época: até 1 SM, de 1 a 2, de 2 a 5, de 5 a 10, de 10 a 15, de 15 a 20, mais de 20 SMs

Classe de Renda

do Chefe Ordinal (8 classes) Renda do chefe do domicílio – mesma categorização da variável anterior, incluindo a classe “analfabeto” Renda Mensal do

Domicílio Contínuo Renda do Domicílio (em reais)

Classe

Econômica Brasil

Ordinal (7 classes)

Classe Econômica do Critério Brasil: A1, A2, B1, B2, C, D, E

(disponível somente na Pesquisa ABRADEE 2004) Valor Médio

da Conta Contínuo

Valor médio da conta de energia elétrica (em reais) (segundo a percepção do respondente)

Quadro 4.4: Variáveis da Pesquisa ABRADEE

Fonte: elaboração própria, a partir dos bancos de dados e dos questionários das rodadas da pesquisa ABRADEE.

Nota-se que o Consumo de Energia Elétrica (em kWh) não está diretamente disponível. Utilizaremos o Valor Médio da Conta de Luz (em reais) como variável proxy dessa informação. Além disso, a Classe Econômica Brasil não está disponível em seu sistema de pontuação de 0 a 34, e sim, apenas, em suas 7 classes econômicas. Já a Renda Familiar, a Renda do Chefe da Família e o Valor da Conta de Luz são variáveis contínuas nessa pesquisa.

A AES Eletropaulo contrata a expansão da Pesquisa ABRADEE em subregiões desde 2004. Nesse ano, a expansão ocorreu em 7 subregiões (correspondentes às 7 diretorias

regionais vigentes à época). Em 2006 foram 13 subregiões (algumas diretorias regionais foram subdivididas para a pesquisa) e a partir de 2007 a empresa padronizou sua expansão em 12 áreas. Foram realizadas, ao todo, 1.050, 1.350, 1.200, 1.200 e 1.200 entrevistas, respectivas aos anos de 2004, 2006, 2007, 2008 e 2009.

No município de São Paulo, foram realizadas 750, 750, 700, 700 e 700 entrevistas, respectivas às mesmas rodadas. Por crivo, todos os respondentes da amostra informaram a classe de renda do domicílio. Porém, desse total, alguns não informaram a renda em reais ou o valor médio da conta de luz.

O total de entrevistas válidas, pois, para esta pesquisa, foi 662, 717, 670, 654 e 677, espalhadas em 75, 74, 73, 78 e 73 distritos, respectivos aos anos 2004, 2006, 2007, 2008 e 2009. O conjunto final adotado para análise neste estudo contempla todas as entrevistas do município de São Paulo com valor válido de renda domiciliar (em reais) e de valor de conta de luz (em reais).

Pequenas mudanças na operacionalização do sorteio de setores censitários (e conseqüente agregação de entrevistas por distrito) causaram a variação no número de distritos com entrevistas válidas ao longo das rodadas analisadas. Espacialmente, no entanto, a abrangência de distritos em áreas centrais e periféricas é grande em todas as rodadas.

Aplicaremos as técnicas de regressão da Renda Domiciliar a partir do Consumo de Energia Elétrica (utilizando a proxy Valor da Conta de Luz) sobre os dados da Pesquisa ABRADEE das cinco rodadas especificadas. Pela natureza espacial do fenômeno e pela disponibilidade da informação do distrito em que ocorreu cada entrevista, aplicaremos as análises baseadas em estatística espacial na avaliação da associação entre os construtos do modelo, em especial a GWR. Sua aplicação, no entanto, será feita após uma análise sobre as possibilidades de real localização dos domicílios dentro dos polígonos, conforme discutido no tópico 4.2.2, seguinte.

4.2.2 ALTERNATIVAS DE ALOCAÇÃO DE PONTOS EM POLÍGONOS

É muito comum hoje em dia coletarmos dados de pesquisas de campo “habilitados espacialmente”. A motivação vem de diversas disciplinas, incluindo o universo do marketing e das ciências sociais e as subseqüentes melhorias que a estatística espacial permite na interpretação, medição das relações e predição. Contudo, é também muito comum que o dado relacionado a esses assuntos não esteja devidamente apropriado para as análises espaciais. Muitos formulários de coleta de dados não tornam disponível a informação de localização adequada (em acurácia ou precisão) – essas situações produzem dados cuja localização precisa de cada observação é desconhecida – apenas a informação sobre a região onde a observação foi coletada (distrito, código postal, município) é publicada.

Essa situação pode ser vista como o oposto ao conhecido MAUP, ou problema da unidade de área modificável, que descreve o efeito da mudança de escala e de zoneamento nas relações observadas entre os elementos espaciais, conforme discutido no tópico 3.2. Para a situação descrita aqui, ao invés de termos um conjunto de pontos que podem ser agregados em uma variedade de maneiras em unidades poligonais, temos um conjunto de polígonos com dados (entrevistas) associados, e que queremos alocar em um lugar (ponto) específico, de acordo com alguma estratégia razoável.

As técnicas de estatística espacial (em especial, os modelos de regressão descritos no tópico 3.4) estendem dados baseados em polígonos para pontos alocados nos polígonos para a aplicação de seus métodos de resolução e maximização. Os modelos SAR utilizam esse artifício para a geração de matrizes de proximidade e ponderações por distância (no termo auto-regressivo

ρ

Wy), que são internamente baseados na distância entre os centróides dos polígonos envolvidos na predição. Os modelos GWR contam com as distâncias computadas entre as observações (tratadas diretamente como pontos) para calcular os pesos de cada observação em cada amostra local e, mais importante ainda, para indicar o tamanho da amostra local mais apropriada, baseada em minimização do Akaike Information Criterion (AIC) ou cross-validation (CV).

Como o distrito de cada entrevista é a única informação localizacional que temos, e a GWR considera pontos como sua unidade espacial básica de observação, a forma mais

simples de procedermos é associarmos o centróide ou a localização da sede do distrito (quando disponível e conhecida) a cada entrevista. Dessa forma, muitas entrevistas ficam associadas a um mesmo ponto.

Sob essa peculiaridade, a questão parece ser a unidade de observação. A unidade é o domicílio, mas não temos maneira de geocodificar sua localização a não ser associá-lo ao centróide ou a algum ponto arbitrário no interior do distrito – a sede do mesmo parece ser a mais razoável. Isso significa que qualquer domicílio no mesmo polígono deveria ser alocado efetivamente nesse ponto escolhido dentro do distrito, “um sobre o outro”. Isso resultaria em um peso de 1 para todos esses pontos na regressão da amostra local de qualquer um deles quando aplicada a GWR, enquanto que observações de distritos adjacentes receberiam um peso menor, mas novamente igual para todos os seus domicílios.

Aparentemente a aplicação de GWR baseada nos centróides não produz resultados realistas devido aos pesos semelhantes aplicados aos dados que poderiam ser espacialmente dispersados e, portanto, ter influências diferentes de sua vizinhança, o que é intrínseco à sua natureza de domicílio. A abordagem “ingênua” do centróide (ou sede) para a alocação dos dados pontuais pode ser encarada como nosso modelo espacial inicial, ou benchmark, ou null model – e qualquer outro modelo de alocação que adotássemos deve ser comparado a ele, para avaliarmos se a busca pela relação mais “realista” caminha no sentido do aumento da associação entre os construtos em estudo, ou em sentido contrário.

Para tratar desta questão central, seis alternativas de distribuição, ou alocação, de pontos em polígonos foram consideradas. Algum conhecimento adicional sobre o processo de planejamento amostral, ou sobre a área em estudo, ou ainda sobre o conjunto de variáveis socioeconômicas e demográficas coletadas nas pesquisas de campo certamente suportará aperfeiçoamentos na qualidade desses algoritmos, ou talvez sugerir novas abordagens. Não obstante, conhecimento prévio sobre o planejamento amostral não costuma ser considerado pelos “usuários” da pesquisa (principalmente em Ciências Sociais) – e este estudo selecionou uma alternativa específica para mostrar o potencial de aprimoramento que esse conhecimento poderia produzir.

Os algoritmos das alternativas de alocação foram implementados através da ferramenta estatística R 2.9.1 (R DEVELOPMENT CORE TEAM, 2009), utilizando as

extensões (packages): GPCLIB 1.4-4, MAPTOOLS 0.7-26, SPLANCS 2.01-23 e SPATSTAT 1-17-0. O Apêndice B apresenta o código original dessa implementação.

4.2.2.1 Alternativa 1: Geração Completamente Aleatória de Pontos nos Polígonos

Esta é a alternativa mais simples e intuitiva a ser considerada. Para cada distrito da pesquisa, selecionamos o número n de entrevistas e aplicamos a geração de n pontos completamente aleatórios no interior do polígono do distrito (na realidade, geramos um ponto aleatório no interior do bounding box31 do polígono e mantemo-lo se estiver efetivamente DENTRO do polígono, senão descartamos; repetimos esse processo até que as n entrevistas estejam posicionadas). O comando csr da extensão SPLANCS do R é o núcleo dessa

implementação (ROWLINGSON; DIGGLE, 1993; BIVAND; GEBHARDT, 2000).

O Esquema 4.2 mostra um exemplo da aplicação desta alternativa.