ESTRUTURA DE COVARIÂNCIA DE MODELOS
ESPACIAIS PARA DADOS DE ÁREAS
Orientador: Renato Martins Assunção
ESTRUTURA DE COVARIÂNCIA DE MODELOS
ESPACIAIS PARA DADOS DE ÁREAS
Dissertação apresentada ao Programa de
Pós-GraduaçãoemEstatístiada UniversidadeF
e-deral de Minas Gerais omo requisito parial
paraaobtençãodograudeMestreem
Estatís-tia.
ELIAS TEIXEIRA KRAINSKI
FOLHADE APROVAÇO
Estrutura de ovariânia de modelos espaiais para dados de áreas
ELIAS TEIXEIRA KRAINSKI
Dissertação defendidae aprovada pelabana examinadora onstituída por:
Ph. D.Renato Martins Assunção Orientador
UniversidadeFederal de Minas Gerais
Ph. D.Paulo Justiniano Ribeiro Junior
UniversidadeFederal doParaná
Ph. D. Lourdes Coral Contreras Montenegro
Primeiramente a Deus pelavida e por meguiar atéaqui.
Ao prof. Renato, pela orientação segura e objetiva. Pelos onheiment os passados. Pela
motivação. Pelasgrandes e pequenasidéias.
AosprofessoresdapósgraduaçãodaUFMGquetiveontatoepudeextrairumpouquinho
de experiênia.
Aoprof. PauloJustiniano,pelobakgro und omputaional esugestõesparaadissertação.
Àprofa. Lourdes pelas sugestõesfeitaspara a dissertação.
Aos olegas da pós-graduação pela amizade e ompanheirismo. Não vou itar nomes
para não orrer o risode esqueeralgum.
AosolegasdoLeste, pelo ambiente amigávelde trabalho.
Aosmeuspais pelo apoioque derampara eu vir a BeloHorizonte.
À Raquel, o amor da minha vida, por todo o seu amor e ompreensão e por me deixar
dediar tempo para adissertação.
Atodosquedealguma formaontribuiram para obomperíodoquepasseiemBelo
Este trabalho está dividido em três Capítulos. Em todo o trabalho nós utilizamos o mapa
dosEUA para failitarareferêniaao trabalho deWall(2004),quefoioprinipal motivador
deste trabalho. No primeiro Capítulo nós introduzimo s os modelos SAR e CAR e fazemos
uma análisede dados. Nósonsideramos dadosde Renda per Capita, Expetativa de vida e
Perentual de GraduadosnosEUA.
Oapítulo2éumartigosubmetido. NesseCapítulo,nósmostramosmaisdetalhadament e
os resultados não intuitivos. Nós onsideramos resultados de álgebra linear e obtemos uma
expressão simpleseintuitivapara amatrizde ovariâniaqueexpliaosresultados não
intui-tivos. Nósobtemostermospara aproximaçõesdamatrizdeovariâniaeestudamos algumas
aproximações para a matriz de ovariânia. Nóstambém estudamos o segundo autovalor da
matriz devizinhançautilizada pelosmodelos SAReCAResuarelação omostermosda
ex-pressãoobtidapara amatrizdeovariânia. Tambémestudamosoimpatodaonetividade
e do tamanhodo mapano segundoautovalor.
No Capítulo 3 nós onsideramos um modelo espaial Bayesiano para dados gaussianos.
Nesse modelo, onsideramos um efeito aleatório om distribuição a priori CAR. Obtemos a
distribuição a posteriori e uma expressão simples e intuitiva para a matriz de ovariânia a
posteriori dosefeitos aleatórios. Nós avaliamos o impato da informação a prioriem relação
a informação dos dados em termos da preisão da priori e da preisão dosdados. Obtemos
também a expressão da ovariânia a distribuição posteriori dos efeitos aleatórios quando a
distribuiçãoàprioriéCARintrinsia. NesseCapítulo,fazemosreferêniaaoCapítulo 2omo
um artigo submetido.
No Capítulo 4 nós tiramos algumas onlusões e oloamos algumas linhas de pesquisa
1 Introduçãoaos modelos SAR e CAR e uma apliação 1
1.1 Osmodelos SAR eCAR . . . 2
1.2 Umexemplo deapliação . . . 3
1.3 Covariânias impliadas . . . 6
2 Another lose look at spatial struture of CAR and SAR models 9 2.1 Introdution . . . 9
2.2 TheSAR andCAR models . . . 10
2.3 Thepuzzlingresults . . . 11
2.4 Somepreliminarydenitions and results . . . 13
2.4.1 Randomgraphs andthe matrix W . . . 13
2.4.2 A matrixidentity . . . 14
2.4.3 Thepowersof the Wmatrix . . . 14
2.5 Revisitingthe puzzling results . . . 15
2.5.1 TheCAR modelwith
ρc
>
0
. . . 152.5.2 TheCAR modelwith
ρ
c
<
0
. . . 182.5.3 TheSAR model . . . 19
2.5.4 Therole of
|
λ2
|
. . . 213 Covariânia posteriori de efeitos aleatórios om priori CAR 24 3.1 Introdução. . . 24
3.2 Modelos espaiaisBayesianos . . . 25
3.3 Covariâniaà posteriori . . . 27
3.4 Resultadosnão-intuitivosde Wall . . . 29
3.5 Algunsresultados algébrios . . . 32
3.6 Analisandoa ovariânia aposteriori . . . 35
3.6.1 Umaexpressão simples. . . 35
3.6.2 Oasodistribuição a prioriCARintrínsia . . . 37
3.6.3 Convergêniae segundoautovalor. . . 37
4 Conlusão 39
1.1 Mapa dos
48
estadosontinentais dosEUA omgrafo assoiado ávizinhança . . 3 1.2 Mapasdosdadosde Rendaper Capita,Expetativade vida ePerentual deGra-duados. . . 4
1.3 Variânias impliadas pelomodelos SAR (a)e CAR (b) peloo úmero de vizinhos
e orrelações entre pares devizinhos pelonúmero devizinhos pelos modelos SAR
()e CAR(d). . . 7
1.4 Correlaçõesimpliadas entreáreas vizinhas por
ρ
s
(esquerda)eρ
c
(direita). . . . 8 2.1 The graph of USA statesby neighboohod (upper left), SAR orrelations impliedbynumber o neighbors if
ρs
= 0
.
6
(upper right) and the orrelations implied by SAR andCARmodels for allpossibleρ
s
(bottom left) andρ
c
(bottom right)values 12 2.2 Suessively approximating the orrelation between Vermont and Massahusettsaswe inrease the number ofterms in the nitesums of ( ??),with
ρs
=
−
0
.
99999
. 19 2.3 EdgesofUSstatesneighborhodgraphdrawnaordingtothepairwiseorrelationwhen
ρ
c
approahesits lower bound−
1
.
3923
. Solid line: positive orrelation,+1
; dashedline: negative orrelation,−
1
.. . . 20 2.4 Suessively adding or pruning the adjaeny neighborhood graph of four graphs.The geographia l regions are the US states map, the the ounties of Wyoming
and Iowa, and the muniipalities of Minas Gerais, a Brazilian state. The seond
olumn of plots shows ve realizations of the of the addition-pru ning proess in
eah graph. The third olumn of plots shows 95%ondene envelopes based on
the simulations in dashedlines, aswell asthe mean
|
λ
2
(
j
)
|
value in solidline. . . 22 3.1 Correlaçãoa posteriori entrevizinhos porρ
, para vários valoresdeτ
b
. . . 30 3.2 Número de orrelaçõespositivasentre paresde vizinhos emfunção deτ
b
. . . 31 3.3 Coeiente de orrelação de Kendall entre os postos de orrelação entre pares devizinhos impliada pordiferentes paresde valoresde
ρ
, emfunção deτ
b
. . . 31 3.4 Coeiente de orrelação de Kendall entre os postos de orrelação entre pares devizinhos impliada porpares de valores seqüêniaisde
ρ
, emfunção deτ
b
. . . 32 3.5 Amplitude porτ
b
para alguns valoresdeρ
. . . 33 3.6 SegundoautovalordeW
(vertial)pelaarazãoentreosdoisprimeirosautovaloresde
W
∗
1.1 Estimativas obtidas para osparâmetros dosmodelos . . . 5
1.2 Intervalos de
95%
de onançapara asestimativasdatabela 1.1 . . . 62.1 Values of the entries of
W
k
,
ρ
k
W
k
, and the umulative sum
P
k
j=0
ρ
j
W
j
for the pairs of neighboring states (Alabama, Florida) and (Alabama, Geórgia). Weonsiderthe values
ρ
= 0
.
97
andρ
= 0
.
49
. . . 16 2.2 Values of the entries ofW
k
,
ρ
k
W
k
, and the umulative sum
P
k
Introdução aos modelos SAR e CAR e
uma apliação
Nestetrabalhonósanalisamosdetalhadament eaestruturadeovariâniademodelosespaiais
para dados de áreas, tais omo asos de doença agregados por muniípios, o IDH em ada
estado de um pais, et. Há dois modelos propostos na literatura que são mais utilizados.
Um éespeiado por um onjuntode equaçõesde regressãoda observação de umaáreanas
observações das áreas vizinhas. Esse sistema de equações é resolvido de forma simultânea,
por isso esse modelo é hamado de Simultaneos AutoRegressive - SAR. O outro modelo é
espeiado por um onjunto de distribuições ondiionai s, onde sepropõe quea observação
de umaáreatemdistribuição gaussianaomo parâmetrodemédiasendoamédia ponderada
das observaçõesdas áreasvizinhas e a variâniasendoinversamente proporiona l ao número
de áreas vizinhas. Esse modeloé hamadode ConditionalAutoRegressive -CAR.
Oparâmetro deregressão do modelo SARe o parâmetrode ponderação da média
ondi-ional nomodeloCARsãoparâmetrosdeautoregressão. Essesparâmetros medema forçada
dependênia da observação de uma área nasobservações dasáreas vizinhas. Para ambos os
modelos, é possívelseobtera distribuição onjunta dovetor aoqual sepropõeo modelo.
Naliteratura,algunstrabalhoshamam aatençãopararesultados nãointuitivosda
estru-tura de ovariânia desses modelos, maisespeiament e da orrelação entre pares de áreas
vizinhas. No modelo CAR a ovariânia entre áreas om mesmo número de vizinhos é
di-ferente, Besag andKooperberg (1995). Wall (2004) apontou detalhadament e três resultados
não intuitivosnasorrelaçõesimpliadas entre áreasvizinhas.
Neste trabalho, nós vamos mostrar omo esses resultados não intuitivos podem ser
ex-pliados. Fazemos isso a partir do uso de alguns resultados de álgebra linear que usamos
para analisaramatrizdeovariâniaimpliadapelosmodelosSAReCAR.Nóstambém
usa-mos esses resultados para estudar oomportament o da ovariânia aposteriorinum modelo
Bayesiano omefeito aleatório espaialom distribuiçãoa prioriCAR.
Neste apítulointroduzimo sos modelos SARe CAR na Seção?? . Na Seção1.2 fazemos
umaapliaçãoaoonjuntodedadosparailustrarousodosmodelosCAReSAR.NaSeção1.3
resultados não intuitivosimpliados.
1.1 Os modelos SAR e CAR
Sejaumaregião
D
,partiionadaemn
áreasdisjuntas,A
1
, ..., A
n
omA
i
∪
A
j
=
e∪
n
i=1
A
i
=
D
. Os 853 muniípios que fazem parte do estado de Minas Gerais, por exemplo, formam umapartição doestado de Minas Gerais. Seja
y
i
ovalorobservado de um determinado fenmeno na áreaA
i
. Ointeresse émodelar oproesso estoástioY
(
A
i
)
,i
= 1
, ..., n
ou simplesmentey
= (
y1, ..., yn
)
. Dois modelos para esse proesso foram propostos e são muito utilizados: o modeloautoregressivosimultâneo-SARWhittle(1954)eomodeloautoregressivoondiional- CAR Besag(1974).
OmodeloSAR é determinado pela solução simultâneado sistemade equações dadopor:
y
i
=
µ
i
+
n
X
j=1
b
ij
(
y
j
−
µ
j
) +
ǫ
i
(1.1)onde
ǫ
= (
ǫ
1
, ..., ǫ
n
)
′
∼
N
(0
,
Λ)
om
Λ
diagonal,E
(
y
i
) =
µ
i
, eb
ij
são onstantes onheidas ou desonheidas ebii
= 0
, i
= 1
, ..., n
. A distribuiçãoonjunta dey
éy
∼
N
(
µ,
(
I
n
−
B
)
−1
Λ(
I
n
−
B
)
−1
′
)
,
(1.2)em que
B
ij
= (
b
ij
)
.OmodeloCAR édeterminado por um onjunto dedistribuiçõesondiionai s
y
i
|
y
−i
∼
N
(
µ
i
+
n
X
j=1
c
ij
(
y
j
−
µ
j
)
, τ /d
i
)
(1.3)em que
y−i
=
{
yj
:
j
≤
i
}
são osvaloresdey
nasáreas vizinhas dei
,E
(
yi
) =
µi
,τ
edi
cij
são onstantes onheidas ou desonheidasc
ij
= 0
,i
= 0
, ..., n
. Este modelo é ondiional por queτ /d
i
é a variânia ondiinal.Z
∼
N
(
µ,
(
I
n
−
C
)
−1
T
−1
)
(1.4)em que
C
ij
=
c
ij
eT
=
τ diag
{
d
1
, ..., d
n
}
.Geralmente adota-se
B
=
ρs
W
eC
=
ρc
W
, emqueρs
eρc
sãoparâmetros deorrelação espaial dos modelos CAR e SAR, respetivamente, eW
reete a estrutura de vizinhançaentreasáreas. Umadeniçãobastanteomum de
W
é feitaapartir damatrizde adjaêniaA
. A matrizde adjaênia é denida fazendoA
ij
= 1
seasáreasi
ej
temborda omum eA
ij
= 0
asoontrario. PordeniçãoA
ii
= 0
. NestetrabalhoonsideramosqueW
édenida1.2 Um exemplo de apliação
Nesse trabalho, onsideramos o mapa formado pelos
48
estadosontinentais dos EUA, para fazer omparações om os resultados apontados em Wall (2004). O mapa om as divisõespolítiasdesses
48
estadoseografoassoiadoàestruturadevizinhança,podeservisualizado na Figura1.1. Maine,loalizado ao norteda ostaleste, éum estado omapenasum estadovizinho, New Hampshire.
0
500
1000 km
scale approx 1:30,000,000
Alabama
Arizona
Arkansas
California
Colorado
Connecticut
Delaware
Florida
Georgia
Idaho
Illinois Indiana
Iowa
Kansas
Kentucky
Louisiana
Maine
Maryland
Massachusetts
Michigan
Minnesota
Mississippi
Missouri
Montana
Nebraska
Nevada
New Hampshire
New Jersey
New Mexico
New York
North Carolina
North Dakota
Ohio
Oklahoma
Oregon
Pennsylvania
Rhode Island
South Carolina
South Dakota
Tennessee
Texas
Utah
Vermont
Virginia
Washington
West Virginia
Wisconsin
Wyoming
Figura1.1: Mapa dos
48
estados ontinentais dosEUA omgrafo assoiado ávizinhançaEm seguida analisaremos dados de rendaper apita,expetativa de vida eperentual de
graduadosparaexempliarasorrelaçõesimpliadaspelosmodelosSAReCAR.Essesdados
estãodisponíveisnopaote'datasets'doR,R Development Core Team(2007),sobonomede
state. Na Figura1.2 podemos visualizarosmapas orrespondente s aosdadosmenionados.
Na análise vamos onsiderar dois modelos, um para o logaritmo da renda per apita e
outro para a expetativa de vida. Em ambosmodelos, onsideramos o perentual de
gradu-ados omo variávelexpliativa. Para efeito de omparação , ajustamos osmodelos utilizando
três abordagens. Na primeira, onsideramos as observações nas diferentes áreas são
inde-pendentes e utilizamos um modelo de regressão linear simples. Na segunda, modelamos a
dependênia espaial omo um proesso ontínuo no espaço, om a orrelação dependendo
da distânia entre os entróides dos estados, e utilizamos um modelo geoestatístio (Geo),
Diggle andRibeiro Jr. (2007). Na tereira abordagem, onsideramos a dependênia espaial
Renda per Capita em 1974
under 3600
3600 − 4000
4000 − 4400
4400 − 4800
over 4800
Expectativa de Vida em 1969−71
under 69.2
69.2 − 69.9
69.9 − 70.6
70.6 − 71.3
over 71.3
Percentual de graduados em 1970
under 45
45 − 50
50 − 55
55 − 60
over 60
O modelo geoestatístio é um modelo para ampo aleatório em espaço ontínuo. Nós
vamos onsiderá-lo apenaspara omparaçãoom osoutros modelos. Esse modeloé denido
por
y
i
=
X
i
β
+
s
i
+
e
i
(1.5)onde
X
i
é o vetor de ovariáveis observadas na áreai
,s
i
é o efeito aleatório espaial ee
i
é um erro aleatório ome
i
independent e dee
j
, hamado de efeito pepita.s
i
é espaialente estruturado de forma queCov
(
si, sj
)
é uma função da distânia entre as áreasi
ej
, por exemplo,a funçãode orrelaçãoexponenial, queusamosnestetrabalho étalqueCov
(
s
i
, s
j
)
=V ar
(
e
i
) +
V ar
(
s
i
)(1
−
exp
(
−
dist
ij
/φ
))
, ondedist
ij
é a distânia entre os entróides das áreasi
ej
eφ
é um parâmetro que mede o alane da orrelação ou dependênia espaial. Para maisdetalhesver Diggleand RibeiroJr. (2007).Nós utilizamos o R para realizar todas as análises. Utilizamos a função lm() para o
modelo de regressão linear (IID), implementamos os modelos SAR e CAR, e utilizamos o
paotegeoR,RibeiroJrand Diggle(2001)paraajustaromodelogeoestatístio. Natabela1.1
obtemos as estimativas dos parâmetros em ada modelo utilizando o método de máxima
verossimilhança. Nósnão inluimosoerro-padrão deada estimativa nessaTabelae fazemos
inferêniautilizandoointervalodeonança,daTabela1.2. Nomodelogeoestatístiooefeito
pepita, variânia de
e
i
, tambémfoi estimado, porém a estimativa foi igual a zero emambos osmodelos.Tabela1.1: Estimativasobtidas para osparâmetros dosmodelos
Logaritmo daRenda
IID Geo SAR CAR
β
0
7.8586 7.8198 7.7451 7.7525β1
0.0099 0.0104 0.0119 0.0118σ
2
0.0111 0.0106 0.0334 0.0325φ, ρ
s
, ρ
c
3.0220 0.5527 0.8278 log(Veros.) 40.3206 45.6752 45.5102 45.2606Expetativa deVida
IID Geo SAR CAR
β
0
65.3427 67.0368 66.2299 66.2774β1
0.1047 0.0725 0.0884 0.0875σ
2
0.9861 1.0398 3.8152 3.7236φ, ρ
s
, ρ
c
3.6359 0.3052 0.5687 log(Veros.) -67.2729 -62.5750 -66.7247 -66.6877NotamosqueaverossimilhançadomodeloIIDémenorqueadosmodelosondeseonsidera
adependêniaespaial,paraambasvariáveis. Fazendoumtestederazãodeverossimilhanças,
obtemosqueadependêniaespaialdeveserlevadaemonta namodelagemdarendaper
a-pita. Issoimpliaqueum estadotendeateromportament osemelhanteaodosseusvizinhos,
que 3,84, o valor rítido baseado na distribuição qui-quadrado om 1 grau de liberdade. No
aso daexpetativade vida,adependêniaé signiativa quandomodeladautilizando o
mo-delogeoestatístio,omalane estimadode3.64, masnãoésigniativa quandoutilizadoos
modelosSAReCAR,omoeientesdeorrelaçãoestimadosde0.31e0.57respetivamente.
Na tabela1.2temososintervalosdeonançadosparâmetros epodemostirar melhores
on-lusões, omo por exemplo, onsiderar se o zero está ontido nos intervalos. Notamos, por
exemplo, queosintervalospara
ρ
s
eρ
c
ontém zeronosmodelospara expetativa devida. Tabela 1.2: Intervalos de95%
de onançapara asestimativasdatabela 1.1Logaritmo daRenda
IID Geo SAR CAR
β
0
(7.6528; 8.0644) (7.5670; 8.0726) (7.4710; 8.0192) (7.4806;8.0244)β
1
(0.0060; 0.0137) (0.0058; 0.0150) (0.0068; 0.0170) (0.0067;0.0168)σ
2
(0.0075; 0.0168) (0.0070; 0.0204) (0.0229; 0.0512) (0.0223;0.0498)φ, ρ
s
, ρ
c
(1.3924; 7.5448) (0.2606; 0.8018) (0.4505;0.9917) Expetativade vidaβ0
(63.4066;67.2788) (5.2854; 69.5712) (63.9347; 68.5250) (63.9140; 68.6409)β
1
(0.0683; 0.1411) (-0.0356; 0.1185) (0.0454; 0.1315) (0.0432;0.1318)σ
2
(0.6644; 1.4820) (0.6669; 2.2475) (2.6224; 5.8580) (2.5590;5.7163)
φ, ρs, ρc
(1.6134; 10.0071) (-0.0544; 0.6327) (-0.0831; 0.9395)Os intervalos de onança de
β0
eβ1
foram alulados onsiderando normalidade assin-tótia dos estimadores. Para os demais parâmetros, nósutilizamos o intervalo de onançabaseado nafunção de verossimilhançaperlhada. Considerando osmodelospara o logaritmo
da renda per apita, o perentual de graduados é signiativo, para todosos modelos, pois
o intervalo de onança para
β
1
ontém o zero. Para expetativa de vida, observamos um resultado interessante: No modelo IID o perentual de graduados é signiativo; no modelogeoestatístio isso não aontee mas a dependênia espaial é signiativa; e, nos modelos
SAR e CARessa ovariávelé signiativa, porém adependênia espaial nãoé!
Esseresultadopodeteroorridodevidoaofatodeambasasvariáveis,expetativadevida
e perentual degraduados,terempadrãoespaialpareido,Figura1.2. NomodeloIIDhouve
signiânia por ambas estarem orrelaionadas. No modelo geoestatístio, a dependenia
espaial onsiderada fez omquenão houvessesigniânia, enquanto quenosmodelos SAR
e CAR, a orrelaçãoentreasvariáveis fezom queo efeitoespaial não fossesigniativo.
1.3 Covariânias impliadas
Nesta Seção nós olhamos mais detalhadamente para a estrutura de ovariânia impliada
pelos modelos SAR e CAR e introduzimos os resultados não intuitivos apontados em Wall
(2004). Na Figura 1.3, observamos as variânias em ada área e as orrelações entre áreas
vizinhas impliadaspelos modelos SAR e CAR, onsiderando as estimativas dosparâmetros
0
.
8278
. Nos gráos das orrelações impliadas por número de vizinhos, ambos os pares(
Corr
(
i, j
)
, di
)
e(
Corr
(
i, j
)
, dj
)
estão plotados.1
2
3
4
5
6
7
8
0.2
0.4
0.6
0.8
1.0
1.2
1.4
(a)
Número de vizinhos
Variância − SAR
1
2
3
4
5
6
7
8
0.2
0.4
0.6
0.8
1.0
1.2
1.4
(b)
Número de vizinhos
Variância − CAR
1
2
3
4
5
6
7
8
0.2
0.3
0.4
0.5
0.6
(c)
Número de vizinhos
Correlações − SAR
1
2
3
4
5
6
7
8
0.25
0.30
0.35
0.40
0.45
0.50
(d)
Número de vizinhos
Correlações − CAR
Figura 1.3: Variânias impliadaspelomodelos SAR(a)e CAR(b)peloo úmerode vizinhos
e orrelaçõesentrepares de vizinhos pelonúmero de vizinhos pelos modelos SAR() e CAR
(d)
Observando osgráos dedispersãoentreavariâniaimpliada emada áreaeo número
de vizinhos,naFigura1.3,notamosqueavariâniatendeaserinversamente proporiona lao
númerodevizinhos,porémnãoéumarelaçãolinear. Quantoaosgráosdaorrelação
impli-ada entre pares devizinhos pelonúmero de vizinhos de ada um, notamosquea orrelação
tende aser menorquando umaáreadopar tem menosvizinhos, porém essa relação também
não é perfeita.
Agora, nós usaremos alguns valores para
ρ
s
eρ
c
para apresentar três resultados não intuitivosapontadosemWall(2004). Essesresultados oorrempara ambososmodelos.−1.0
−0.5
0.0
0.5
1.0
−1.0
−0.5
0.0
0.5
1.0
ρ
s
Correlação − SAR
−1.0
−0.5
0.0
0.5
1.0
−1.0
−0.5
0.0
0.5
1.0
ρ
c
Correlação − CAR
Figura1.4: Correlações impliadasentreáreas vizinhas por
ρ
s
(esquerda)eρ
c
(direita).ρs
= 0
.
6
, de0
.
241
a0
.
642
.2. Inonsistênia no ranking dasorrelações. Considerando
ρc
= 0
.
49
, a orrelação entre Alabama e Flórida é0
.
200
enquanto a orrelação entre Alabama e Geórgia é0
.
156
. Entretanto , seρ
c
= 0
.
97
, a orrelação entre Alabama e Flórida é0
.
650
, menor que a orrelação entreAlabamae Geórgia,que nesteaso é0
.
671
.3. A orrelação impliada por
ρ
s
ouρ
c
negativos, pode ser positiva para alguns pares de vizinhos. Comρ
s
=
−
0
.
7
aorrelação entre MarylandePennsylvania é−
0
.
180
e entre Vermont e Massahussets é−
0
.
157
. Mas seρ
s
=
−
1
.
37
, passam a ser0
.
463
e0
.
985
, respetivamente.Seonsideramostodososvalorespossíveisde
ρ
s
eρ
c
ouseja,entre1
/min
{
λ
i
}
e1
/max
{
λ
i
}
, podemos vizualizaresses resultados fazendoo gráo da orrelação impliada entrepares devizinhos por
ρ
s
eρ
c
. Na Figura 1.4, temos asorrelações entre estados vizinhos impliadas pelos modelos SAR e CAR em função deρ
s
eρ
c
. Nessa Figura podemos vizualizar os três resultados não intuitivospar ambososmodelos.Esses resultados foram apontados em Wall (2004) e no próximo Capítulo nós os
estu-daremos em mais detalhes e usamos resultados de álgebra linear para ompreendê -los. No
Capítulo 3nósestudamosessesresultadosnão intuitivospara ummodeloespaialBayesiano.
Another lose look at spatial struture
of CAR and SAR models
2.1 Introdution
Lattiedatarefertostatistialdataobservedatspatialloationsorareasinagiven
geographi-al region. It is ommon to assume that observations at sites near eah other tend to have
similar values. The Conditional Autoregressive (CAR) and the Simultaneous Autoregresive
(SAR) models are widelyusedto analyzethese lattie data. The SAR model ispreferred in
likelihood inferene, while the CAR modelis more ommon in Bayesian inferene asa prior
distribution for spatially struturedrandom eets.
Despite their popularity, these models bring uneasy onsequenes for the implied
orre-lation struture of the variables. Several authors have pointed out that the SAR and CAR
modelsyieldnononstantvarianesateahsiteaswellasunequalovarianesbetweenregions
separatedbythe samenumber ofneighbors( Haining(1990),page 82;Besag andKooperberg
(1995)).
Wall (2004) extensively studied the ovariane struture entailed by these models. She
foundthattheimpliedorrelationbetweenapairofneighboringareasisnegativelyassoiated
with the number ofneighborsofeahregion. However,shealsoshowedthatthisrelationship
is not simple and muh variabilityremains unexplained. For example,onsidering the three
neighboringUSstatesMissouri,Arkansas,andTennessee,sheshowedthat,althoughMissouri
and Tennessee have the same neighboring struture, their orrelation with Arkansas diers.
Shealsoshowedthatsiteswithequalnumberofneighborsanhavedierentvarianesimplied.
In addition to these unomfortable results, Wall (2004) pointed out a series of puzzling
results from thesetwo spatialmodels. One ofthem isthatorrelations between areas swith
onerningnegativevaluesfor
ρ
. She foundthatwhenρ
isnegative,orrelations between the neighboring areas are also negative but, asρ
dereases further, some pairs of areas start to be positively orrelated,evenapproahing+1at times.Wall(2004)onludedthattheimpliedspatialorrelationbetweenthedierentsitesusing
the SARandCARmodelsdoesnotseemto followanintuitiveorpratial shemeandalled
for moreresearhtobearriedout tolarifytheseproblems. Thisisthe mainpurposeofthis
paper. We explain the apparently ounterintui t ive or impratial onsequenesof the model
speiation by using the omplete neighborhood graph struture, not only the immediate
neighborhood. Inaounting for the omplete neighborhood struture,we see that aruial
role is played by the seond largest eigenvalue modulus of the neighborhood matrix used in
the SAR and CARmodels. We usea simple matrix algebra identity to write the ovariane
matries of the SAR and CAR models asa matrix power series. This enables us to express
the orrelation between any two pairs of areas
i
andj
as an innite series with exponential deay given by the spatial dependene parameterρ
. Moreover, thek
-th term oeient of thisseriesisproportionaltoaweighted sumofthedierentpathstomovefromareai
to areaj
ink
steps.2.2 The SAR and CAR models
Let a region
D
be partitioned inton
areas{
A
1
, . . . , A
n
}
suh thatD
=
A
1
∪
. . .
∪
A
n
andA
i
∩
A
j
=
∅
foralli
6
=
j
. Lety
i
bearandomvariablemeasuredatareai
andy
= (
y
1
, . . . , y
n
)
t
.
We denote by
y
−i
the(
n
−
1)
-dimensional vetor without thei
-th oordinate ofy
. The onditional autoregressive model(CAR)isgiven bya setofn
onditional distributionsy
i
|
y
−i
∼
N
µ
i
+
n
X
j=1
c
ij
(
y
j
−
µ
j
)
, υ
2
i
(2.1)where
c
ii
= 0
andυ
2
i
>
0
fori
= 1
, . . . , n
. It is not any set ofn
onditional distributions thatdetermine uniquely ajointdistribution forthe vetory
. However,averypopular hoiein spatial studies for the onstants
c
ij
andυ
i
denes a valid joint model, and we adopt this hoie in the rest ofthis paper.The hoie of the
n
×
n
matrixC
= (
c
ij
)
is related to the degree of spatial proximity between areasi
andj
. LetA
= (
a
ij
)
be ann
×
n
binary neighborhood matrix suh thata
ij
= 1
if, andonly if, areasi
andj
areneighbors (denotedbyi
∼
j
). Weleta
ii
= 0
. DeneW
= (
w
ij
)
suh thatw
ij
=
a
ij
/a
i·
wherea
i·
=
P
j
a
ij
=
d
i
, the number of neighboring areas of regioni
. Finally, deneC
=
ρ
c
W
andυ
i
=
σ
c
/d
i
. Under a restrition on the value ofρ
c
, the CARmodel( 2.1) with theseoptions denesa valid joint distributionfor the vetory
given by amultivariate normal distribution:y
∼
N
n
µ
,
(I
−
ρ
c
W
)
−1
K
(2.2)
where
µ
= (
µ
1
, . . . , µ
n
)
′
whih is equal to
σ
2
c
diag(
d
−1
1
, . . . , d
−1
n
)
. The restrition onρ
c
is neessary to ensure that(I
−
ρc
W
)
−1
K
ispositivedeniteanditsuestotakeρc
suhthatρc
isbetween1
/
min
i
λi
and1
/
max
i
λ
i
whereλ
i
,i
= 1
, . . . , n
, arethe eigenvalues ofW
(Haining,1990, page 82).Thishoiealso impliesthat( 2.1)redues to
y
i
|
y
−i
∼
N
µ
i
+
ρ
c
(
y
−
µ
)
i
, σ
c
2
/d
i
(2.3)
where
(
y
−
µ
)
i
=
P
j
w
ij
(
y
j
−
µ
j
)
is the average of the deviationsy
j
−
µ
j
amongj
∼
i
, i.e. among the neighboringareas ofi
.TheSAR modelis dened by
n
simultaneousequationsyi
=
µi
+
n
X
j=1
sij
(
yj
−
µj
) +
ǫi
(2.4)where
ǫ
= (
ǫ1, ..., ǫn
)
′
∼
N
(0
,
Λ
)
with
Λ
diagonal withΛ
ii
=
σs/di
,E
(
yi
) =
µi
, andsij
are known onstants withs
ii
= 0
, i
= 1
, ..., n
. This model is simultaneous beause the random variables aresimultaneouslydetermined bythen
equations in 2.4. Provided thatthe inverse of the matrixIn
−
S
exists,the distribution ofy
= (
y1, . . . , yn
)
′
is
y
∼
N
(
µ,
(
I
n
−
S)
−1
Λ
(
I
n
−
S)
−1
′
)
,
(2.5)where
S
ij
=
s
ij
. A popular hoieforS
is to takeS
=
ρ
s
W
, whereρ
s
∈
(
−
1
,
1)
. Following Wall(2004), wewill onstrainρ
s
to the same intervalasρ
c
in orderto allowforomparisons between the models.Withthese hoies for the SAR and CARmodel, the orrelation matrixentries are
fun-tions of only
W
andρ
c
orρ
s
. For the SAR model, we haveCor
(
i, j
) =
σ
2
s
(
I
−
ρs
W
)
−1
ij
d
−1
j
(
I
−
ρs
W
)
−1
ji
q
σ
2
s
(
I
−
ρs
W
)
−2
ii
d
−1
i
q
σ
2
s
(
I
−
ρs
W
)
−2
jj
d
−1
j
,
and
σ
2
s
isaneled out. Forthe CAR model, we haveCor
(
i, j
) =
σ
2
c
(
I
−
ρc
W
)
−1
ij
d
−1
j
q
σ
2
c
(
I
−
ρ
c
W
)
−1
ii
d
−1
i
q
σ
2
c
(
I
−
ρ
c
W
)
−1
jj
d
−1
j
,
and
σ
2
c
isaneled out.2.3 The puzzlin g results
Wesummarizethe mainpuzzling resultsonerningtheorrelations impliedbythe SARand
CAR models and desribed by Wall (2004). She used the United States map to illustrate
the impliation s that the CAR and SAR models entail for the ovariane between pairs of
and
j
are onneted by an edge (meaning thatw
ij
>
0
) if they share borders. This graph is in Figure2.1, with the underlying US map. Theupper right plot in Figure 2.1 shows theorrelations Cor
(
i, j
)
between pairs of neighboring states bythe number ofneighbors. Every pair(
i, j
)
of neighboring areas ontribute two points in this plot depending on eah area's number ofneighbors, the pair(
d
i
,
Cor(
i, j
))
and the pair(
d
j
,
Cor(
i, j
))
. We an seethat, for a givennumber ofneighbors, there isa largevariation in the orrelations.The lower row of plots in Figure 2.1showshow the orrelations Cor
(
i, j
)
varieswith the spatialdependeneparameterρ
. Eahlinerepresentstheorrelationbetweentwoneighboring areas andthehorizontalaxisorrespondstothe spatialdependeneparameterρ
s
oftheSAR model (left hand side plot), orρ
c
for the CAR model (right hand side plot). Based on the eigenvalues ofW
for the US lattie,the spatialparameter spae isrestritedto(
−
1
.
392
,
1)
.1
2
3
4
5
6
7
8
0.3
0.4
0.5
0.6
number of first order neighbors
SAR correlations
−1.0
−0.5
0.0
0.5
1.0
−1.0
−0.5
0.0
0.5
1.0
rho_s
SAR correlation
−1.0
−0.5
0.0
0.5
1.0
−1.0
−0.5
0.0
0.5
1.0
rho_c
CAR correlation
Figura 2.1: Thegraph of USA statesbyneighboohod (upper left),SAR orrelations implied
by number o neighbors if
ρs
= 0
.
6
(upper right) and the orrelations implied by SAR and CAR models forall possibleρ
s
(bottom left) andρ
c
(bottom right)valuesMost of the puzzling results appear in these plots. We an see that lines ross eah
orrelation between Alabama and Florida is 0.1993 while the orrelation between Alabama
and Georgia is 0.1561. However, when
ρc
= 0
.
97
, the orrelation between Alabama and Florida is0.6311, smallerthan the orrelationbetween AlabamaandGeorgia,whih isequalto 0.6490. Thisseems odd asitmeans thatthe eet of hanging
ρ
isnot uniquely dened. ConsiderthebehaviorofCor(
i, j
)
whenρ
approahesitslower bound-1.392. the pairwise orrelations approah either−
1
or+1
. Thelatterlimit valueisounter-intuitive: somepairs tend to be perfetly positively orrelated when we expet they to be the opposite of theirneighboring valuesaording to the SARor CARmodels.
Some results are reassuring. The orrelations inrease monotonially with
ρ
when the spatial dependeneparameter is positive. However, the range ofthe orrelations dependsonthe value of
ρ
. For instane, whenρ
s
= 0
.
1
, orrelations between neighboring states vary between 0.026 and0.115, while this variation liesbetween 0.241and 0.642whenρ
s
= 0
.
6
.2.4 Some preliminary denitions and results
Toexplain the puzzling onsequenes, we uselinearalgebra and graph theoryresults.
2.4.1 Random graphs and the matrix W
The
W
matrix an be seen as the transition matrix of a Markov hain dened on a graph.Assume that
n
nodes or verties, represented by the areasA
i
, are onneted byundireted edges suh thatthereis anedge between areasi
andj
ifw
ij
6
= 0
. Deneadisrete-time and niteMarkovhainwithtransitionmatrixgivenbyW
. Thatis,ifapartileisinonevertexi
at timet
,itmovestoadierentvertexin the nextmoment hoosingamong theneighborsofA
i
with equal probability. These type ofMarkovmodels arealled random walkson graphs (Brémaud (2001),page 214),orrandom graph,forshort.W
k
isthetransitionmatrix forthe
hainmovements in
k
steps.Therandomwalkontheneighborhoodgraphonvergestoauniquestationarydistribution
if the Markov hain dened by
W
is ergodi and aperiodi. For this, the graph must beonneted, i.e.,from eahnodethere existsapath ofedgesonneting suessive nodesuntil
anyotherarbitrarilyhosennode isreahed. If
W
istherownormalizedadjaeny matrixofan undireted graph
G
, then the stationary distribution of the Markovhaindened byW
isgivenby
π
= (
π
1
, ..., π
n
)
whereπ
i
=
d
i
/D
, whered
i
isthenumber ofneighboorin gareasofi
andD
=
P
i
d
i
(Brémaud(2001),page 214).π
i
isalled the densityof areai
or nodei
. Thisimplies thatthe powerW
k
onverge to a matrix omposedbyidentialrows, allof
them equal to the stationary distribution vetor
π
. That is,W
k
ij
→
d
j
/D
, ask
→ ∞
. The onvergene to this stationary distribution is geometri, with relative speed proportional tothe seond-largesteigenvaluemodulus. ThisresultisknownasthePerron-Fröbenius theorem
(Brémaud (2001), page 157)and itis important for our development. It an be shown that
λ
n
be the other eigenvalues ofW
ordered in asuha waythatλ
1
= 1
≥ |
λ
2
|
> . . .
≥ |
λ
n
|
.
Let
m
2
be the multipliity ofλ
2
and1
= (1
, . . . ,
1)
t
. Then, the Perron-Fröbenius theorem
provesthat
W
k
=
1
π
t
+
O
(
k
m
2
−1
|
λ
2
|
k
)
,
where
k
is apositive onstant. In partiular, if|
λ
2
|
>
|
λ
3
|
thenm
2
= 1
and the onvergene speed deays exponentiallywith the seond largesteigenvaluemodulus|
λ
2
|
.2.4.2 A matrix identity
There isamatrix identitywhihisfundamentaltounderstanding thebehaviorofthe
orrela-tions implied bythe models and desribed in Setion 2.2. If
M
isa squarematrix suh thateah entry of the matrix
M
k
goes to zero as
k
inreases, then the inverse(I
−
M
)
−1
exists
and isgiven by
(I
−
M
)
−1
=
I
+
M
+
M
2
+
M
3
+
. . .
(2.6)(Iosifesu (1980), page 45). Take
M
=
ρ
W
where|
ρ
|
<
1
. Sine0
≤
[W
k
]
ij
≤
1
for alli, j
and for all integerk
, wean write(I
−
ρ
W
)
−1
=
I
+
ρ
W
+
ρ
2
W
2
+
ρ
3
W
3
+
. . .
(2.7)2.4.3 The powers of the W matrix
If
[W
k
]
ij
>
0
, then the probability of going fromi
toj
ink
steps in the random graph is positive. Thismeansthatthereexistsat leastone sequeneofk
edgesonnetingnodessuh that the initial and nal nodes arei
andj
, respetively. Let us all suh a path of ak
-th order path between areasi
andj
. In fat, the value of[W
k
]
ij
is a weighted sum of all thek
-th orderpaths betweeni
andj
. For example,[W
2
]
ij
isgiven by[W
2
]
ij
=
n
X
k=1
W
ik
W
kj
=
n
X
k=1
a
ik
d
i
a
kj
d
k
=
1
d
i
n
X
k=1
a
ik
a
kj
d
k
.
(2.8)The binaryprodut
a
ik
a
kj
isequal to 1only ifk
onnets bothi
andj
. Therefore,[W
2
]
ij
is proportional to aweighted sumof all seond-order pathsi
→
k
→
j
. Eah path ontributes a fration inversely proportional to the numberd
k
of neighbors the intervening areak
has. Themoreonnetedk
is,the smallerthe ontributionofthepathi
→
k
→
j
to[W
2
]
ij
. Note that[W
2
]
ii
>
0
beause there isat least one path ofthe typei
→
k
→
i
sine eaharea has at leastone neighbor.Similarly,
[W
3
]
ij
is given by[W
3
]
ij
=
n
X
l=1
[W
2
]
il
w
lj
=
1
d
i
n
X
l=1
n
X
k=1
a
ik
a
kl
a
lj
d
k
d
l
Eah path
i
→
k
→
l
→
j
isinversely weighted byhowdense isthe neighborhood graph atk
andl
. Notethat pathssuh asi
→
j
→
i
→
j
arealso ounted.2.5 Revisiting the puzzlin g results
Putting together the resultsof Setion 2.4,for
|
ρ
|
<
1
, we an write[(I
−
ρ
W
)
−1
]
ij
= [I
]
ij
+
ρ
[W
]
ij
+
ρ
2
[W
2
]
ij
+
ρ
3
[W
3
]
ij
+
. . .
(2.10)Aslong as
|
ρ
|
<
1
, the orrelation betweeni
andj
isa onvergent series deaying expo-nentiallyinthe spatialdependeneparameterρ
. Thek
-thoeient inthisseriesisgivenby[W
k
]
ij
, whih is proportional to the weighted sum of paths of sizek
betweeni
andj
. The weight of a path is the produt of the number of neighbors of the intervening areas in thepath.
Sinethe
k
-thoeient[W
k
]
ij
anbeinterpretedasaprobability, itliesbetween 0and 1. Furthermore,[W
k
]
ij
approahesthe limitd
j
/D
foralli
andthespeedofthisonvergene, for alli
andj
, is determined by the seond largest eigenvalue modulus ofW
. This means that, with a good approximationand for somevaluek
, wean write[(I
−
ρ
W
)
−1
]
ij
≈
[I
]
ij
+
ρ
[W
]
ij
+
. . .
+
ρ
k−1
[W
k−1
]
ij
+
d
j
ρ
k
D
(1
−
ρ
)
(2.11)≈
[I
]
ij
+
ρ
[W
]
ij
+
. . .
+
ρ
k−1
[W
k−1
]
ij
(2.12)Withthese fats,the results are lesspuzzling and easier to understand. Basially, when
we naively try to understand the ovariane struturefousing only on the rst-order
neigh-borhood struture, we are doomedfrom the start. For instane, ifthe third degree
approxi-mation in (2.12) sues, we have the CAR model ovariane between areas
i
andj
,i
∼
j
, given approximately byυ
2
d
j
ρaij
d
i
+
ρ
2
d
i
n
X
k=1
aikakj
d
k
+
ρ
3
d
i
n
X
l=1
n
X
k=1
aikaklalj
d
l
d
k
!
Ignoring the neighborhood struture geographially more distant than the rst order will
produe a rude approximation to the true orrelation oeient. Givingdue onsideration
to the longer paths from
i
toj
, though with ever dereasing weight, we nd the results desribedbyWall (2004) tobe muh lesspuzzling, aswe disussnext.2.5.1 The CAR model with
ρ
c
>
0
expets intuitively, now we understand the underlying reason for this monotone inrease of
Cor
(
i, j
)
.However, orrelationsofdierent pairsan inreaseatdierentrates. Thisisbeause the
seriesexpansionoeientsin( 2.10)arepair-spei. Infat,thederivativeof
[(I
−
ρ
W
)
−1
]
ij
is equal to
∂
∂ρ
[(I
−
ρ
W
)
−1
]
ij
= [W
]
ij
+ 2
ρ
[W
2
]
ij
+ 3
ρ
2
[W
3
]
ij
+
. . .
(2.13)Thisimplies that,for
ρ
∈
(0
,
1)
, wehave aninreasing derivative withρ
. Ifρ
isnot too lose to 1,the rateofinreaseof thisderivative dependsmostlyonthe seond-order neighborhood[W
2
]
ij
.Dierentpairsanexhangetheir relativepositions as
ρc
>
0
inreasesanditislearnow whyand when this happens. Thederivative on ( 2.13) depends of the spei pairi, j
under onsideration. For example, assuming that the seond degree polynomial approximation in(2.12)is good enough,then
∂
∂ρ
[(I
−
ρ
W
)
−1
]
ij
≈
[W
]
ij
+ 2
ρ
[W
2
]
ij
(2.14)Therefore,thelarger
ρc
,thegreater thepositiveontributionoftheseond-order neighborho-ods. Hene, whenρ
c
is small, a pair(
i, j
)
an have a small orrelation that may inreases faster thanthe orrelationinotherareas simplybeauseitsseondorderoeient[W
2
]
ij
is relativelylarge.Tabela 2.1: Values of the entries of
W
k
,
ρ
k
W
k
, and the umulative sum
P
k
j=0
ρ
j
W
j
for the pairs ofneighboring states(Alabama,Florida) and(Alabama, Geórgia). Weonsiderthevalues
ρ
= 0
.
97
andρ
= 0
.
49
.k
1 2 3 4 5 10 30 50 100Alabamaand Florida,
ρ
c
= 0
.
97
W
k
0.2500 0.0500 0.0984 0.0498 0.0588 0.0317 0.0127 0.0100 0.0094ρ
k
W
k
0.2425 0.0470 0.0898 0.0441 0.0505 0.0233 0.0051 0.0022 0.0004 CumSum 0.2425 0.2895 0.3794 0.4235 0.4740 0.6246 0.8345 0.8997 0.9526Alabamaand Georgia,
ρ
c
= 0
.
97
W
k
0.2500 0.1562 0.1516 0.1333 0.1179 0.0754 0.0312 0.0249 0.0234ρ
k
W
k
0.2425 0.1470 0.1383 0.1180 0.1012 0.0556 0.0125 0.0054 0.0011
CumSum 0.2425 0.3895 0.5278 0.6458 0.7470 1.1026 1.6092 1.7711 1.9030
Alabamaand Florida,
ρc
= 0
.
49
ρ
k
W
k
0.1225 0.0120 0.0116 0.0029 0.0017 0.0000 0.0000 0.0000 0.0000
CumSum 0.1225 0.1345 0.1461 0.1490 0.1506 0.1517 0.1517 0.1517 0.1517
Alabamaand Georgia,
ρc
= 0
.
49
ρ
k
W
k
0.1225 0.0375 0.0178 0.0077 0.0033 0.0001 0.0000 0.0000 0.0000
CumSum 0.1225 0.1600 0.1778 0.1855 0.1889 0.1915 0.1915 0.1915 0.1915
Thisistheexplanationfortheapparentlystrangebehavioroftheswithingranksbetween
the orrelations of Alabama and Florida and Alabama and Georgia. We use Table 2.1 to
Alabama andFlorida,
[(I
−
ρ
W
)
−1
]
Al, Fl
≈
0
.
25
ρ
+ 0
.
05
ρ
2
+ 0
.
10
ρ
3
+ 0
.
05
ρ
4
+
. . .
while, for Alabamaand Georgia,wehave
[(I
−
ρ
W
)
−1
]
Al,Ge
≈
0
.
25
ρ
+ 0
.
16
ρ
2
+ 0
.
15
ρ
3
+ 0
.
13
ρ
4
+
. . .
The oeients of this expansion hasa slower deline for the more fully onneted pair
(Alabama, Georgia) than for the pair (Alabama, Florida). When
ρ
= 0
.
49
, this dierene is not relevant beause the diminishingρ
k
quikly shrinks the term
ρ
k
[W
k
]
ij
towards zero forboth pairs. The onsequene is that the rst few terms, with small
k
, dominate the series. Considering only the rst order approximation withk
, we are within 64% and 81% of their limiting values,equal to 0.1915 for the pair (Alabama, Georgia),and equal to 0.1517 for thepair(Alabama, Florida),respetively. Usingathird degreeapproximationwith
k
= 3
,weget verylose to these limits,within 93%and 96%, respetively.This piture hanges substantially when
ρ
= 0
.
97
. Now, even relatively largek
-thorder neighborhoodsontributeafairamounttotheseriessum. Asaonsequene,theonvergeneof
[(I
−
ρ
W
)
−1
]
is slow. With
k
= 1
, we arewithin only 13% and 25% from their limiting values, equal to 1.9030 for the pair (Alabama, Georgia), and equal to 0.9526 for the pair(Alabama, Florida), respetively. Inreasing to
k
= 10
we are still away from the limiting values, 58% from (Alabama, Georgia), and 66% from (Alabama, Florida). This means thatmore geographia llydistant neighborhoodstrutures, reeted in the
k
steps pathsfromi
toj
in theW
k
entries,have anon-negligible impaton the series'limits. Sine thesepaths are
dierent for the two pairs of areas, the end result is that an initial ordering of orrelations
when
ρ
= 0
.
49
isswithed asρ
inreases to 0.97.Let us turn our attention to the relationship between varianes Var
(
y
i
)
and the numberd
i
of rst order neighbors. Wall (2004) notied that there is a typial negative relationship between these two quantities but that there is also variation of Var(
y
i
)
among areas with equald
i
. We use again the approximation in ( 2.12) to larify this in the ase of the CAR model.Suppose thatthe
W
k
onvergefastenough suhthat
Var
(
y
i
) =
σ
2
c
d
i
[(I
−
ρ
W
)
−1
]
ii
≈
σ
2
c
d
i
1 +
ρ
[W
]
ii
+
ρ
2
[W
2
]
ii
+
d
i
ρ
3
D
(1
−
ρ
)
!
=
σ
2
c
d
i
1 +
ρ
2
[W
2
]
ii
+
σ
2
c
ρ
3
D
(1
−
ρ
)
≈
σ
2
c
d
i
1 +
ρ
2
d
i
X
k
a
ik
a
ki
d
k
delining value of Var
(
y
i
)
withd
i
is obvious but we also need to reognize the eet of the seond (and higher) neighborhood order. The sumP
k
(
aikaki
)
/dk
depends on its number of terms. That is, it depends on the numberd
i
of rst order neighborsk
∼
i
. It also depends on the onnetedness degree ofthese neighborsthrough theird
k
values.Toillustratewithanextremease,supposethatarea
i
hasasingleneighbor,areak
. ThenVar
(
yi
)
≈
σc
1 +
ρ
2
d
k
!
Twoareas inthis samesingle-neighbor situation havedierent varianesiftheir single
neigh-bors have dierent number of neighbors. The more onneted is the single neighbor
k
, the smaller the variane ofi
.2.5.2 The CAR model with
ρ
c
<
0
Conerningthenegativepairwiseorrelations,againthespatialdependeneparameter
ρ
c
and the higherorderneighboringareasareruialtounderstandtheir behavior. For−
1
< ρ
c
<
0
, the termsin the series ( 2.10) alternate signsandthis explains the ounter intuitivebehaviorof some pairs of areas. If
ρ
is lose to its lower bound−
1
, the deayρ
k
is slow and more
distant neighborhood patterns impat on the orrelation value with alternating signs. The
rst term
ρ
[W
]
i,j
in the ovariane expansion ( 2.10) is obviously negative. However, sine[W
k
]
i,j
isnotamonotone dereasingfuntionofk
, itispossiblethatthe sumofthersttwo brings the ovariane loser to zero or even positive. Thishappens ifan inrease in[W
2
]
i,j
with respetto
[W
]
i,j
more than ompensates the dereasefrom|
ρ
|
toρ
2
. This argument is
valid with higher orderof
k
.Asan example,onsiderVermont andMassahussetts. When
ρ
c
=
−
0
.
99999
,the orrela-tionbetween thesetwoareas isequalto−
0
.
1051
. Theonvergene of[(I
−
ρ
W
)
−1
]
ij
forthis pair isveryslow. Table2shows the valuesW
k
,
ρ
k
W
k
, andthe umulative sum
P
k
j=0
ρ
j
W
j
for Vermont andMassahusetts. We an seethatthe umulative sumalternates widely. The
dierene between
k
= 100
andk
= 101
for the umulative sum is in the seond devimal plae, asubstantial valuefor suh alarge orderk
.Tabela 2.2: Values ofthe entriesof
W
k
,
ρ
k
W
k
, andthe umulative sum
P
k
j=0
ρ
j
W
j
for the pair Vermont and Massahusetts. We onsiderρ
=
−
0
.
99999
.k
1 2 3 4 5 10 100 101ρ
k
W
k
-0.3300 0.1778 -0.1948 0.2061 -0.1729 0.1590 0.0315 -0.0313 CumSum -0.3300 -0.1556 -0.3504 -0.1442 -0.3172 -0.1151 -0.1671 -0.1984All pairs of neighboring areas have negative orrelation in the CAR model when
−
1
<
ρc
<
0
. However, in the SAR model withρs
=
−
0
.
99999
, Vermont and Massahusetts has orrelation equal to0
.
0293
. Wedisuss the SARmodel in moredetailin setion4.3 butit is appropriate toanteipatesome itsresultshere. Similarlytothe CARmodel,usingthepowerexpansionof
[(I
−
ρ
W
)
−1
]
0
20
40
60
80
100
−0.30
−0.25
−0.20
−0.15
−0.10
−0.05
0.00
0.05
K
Corr(Verm,Mass | rho =−0.99999
Figura 2.2: Suessively approximatingthe orrelationbetween Vermont and Massahusetts
asweinrease the number of termsin the nite sumsof ( ??),with
ρ
s
=
−
0
.
99999
.series in
ρ
s
. Figure 2.2 shows the approximation as suessively larger nite sums are used to approximate the eventually positive orrelation. Considering only the rst neighborhoodorders, the approximationis negative.
The behavior for
ρ
≤ −
1
is lesssimple to explain with our results. Theseries expansion (2.10)isno longervalidand our interpretations an not beput into use. Whenan extremelynegativespatial parameterisusedin the USstatesgraph,the pairwiseorrelations approah
either to
−
1
or to+1
. In Figure??wedraw the edges aording to the limiting behaviorof the pairwiseorrelation asρ
approahes its lower bound−
1
.
3923 = min
i
{
λ
i
}
−1
. A virtually
identialgureisobtainedfortheSARmodel. Solidlinesareusedforthosepairsinwhihthe
orrelation approah
−
1
while the dashed lines represent the pairs with limiting orrelation approahing+1
. Itisnot learwhatthepatternmeansbutwepresent aonjeture. Itseems as ifareas whih at as the enter of star shaped loal neighborhoods have their onnetingedges mostly positive. See, for example, Idaho, Colorado, and South Dakota. The edges
omposingtheouterringsofthesestar-shapedloalneighborhoodshavenegativeorrelations.
To onsider an intuitive explanation for this onjeture, imagine that we are going to
assignthe value
+1
toapproximately one halfof theareas and−
1
to tothe remaining areas. In this way we keep the global mean lose to zero. LetB
the number of neighboring edges onneting areaswith dierent values. Ifwe want to maximizeB, itseemsthatassigning+1
to theenterofstarshapedareasand−
1
totheareasintheouterringsmaybenearoptimal. Weare investigatingthe truth ofour onjetureat the moment.2.5.3 The SAR model
Figura2.3: EdgesofUSstatesneighborhodgraphdrawnaording tothepairwiseorrelation
when
ρ
c
approahesitslowerbound−
1
.
3923
. Solidline: positiveorrelation,+1
;dashedline: negative orrelation,−
1
.ovariane (2.2),wean write
Σ
s
= (
I
−
ρ
W
)
−1
Λ((
I
−
ρ
W
)
−1
)
′
= (
I
+
ρ
W
+
ρ
2
W
2
+
ρ
3
W
3
+
...
)Λ(
I
+
ρ
W
+
ρ
2
W
2
+
ρ
3
W
3
+
...
)
′
=
∞
X
n=0
"
ρ
n
n
X
k=0
W
k
Λ(W
n−k
)
′
#
whih haselements given by
(Σ
s
)
ij
=
σ
s
d
j
∞
X
n=0
"
ρ
n
n
X
k=0
(W
k
)
ij
(W
n−k
)
ji
#
.
(2.15)If the thirddegree aproximationfor
(I
−
ρ
W
)
−1
suesthen
(Σ
s
)
ij
=
P
n
k=1
(
I
−
ρ
W
+
ρ
2
W
+
ρ
3
W
3
)
ik
σ
2
d
k
(
I
−
ρ
W
+
ρ
2
W
+
ρ
3
W
3
)
jk
(2.16)where the element
(I
−
ρ
W
+
ρ
2
W
2
+
ρ
3
W
3
)
ik
isequal to(
I
{i=k}
−
ρ
a
i
k
di
+
ρ
2
d
i
X
p=1
n
a
ip
a
pk
d
p
+
ρ
3
d
i
n
X
p=1
n
X
q=1
a
ip
a
pq
a
qk
d
p
d
q
)
ik
(2.17)ThemaindierenebetweenSARandCARisthatathirddegreeapproximationfor
(I
−
ρ
W
)
−1
implyinuptoasixthdegreepolynomialin