UTILIZAÇÃO DO PROCEDIMENTO INFERÊNCIA DATA-DRIVEN PARA A ESTATÍSTICA ESPACIAL SCAN EM CASOS DO DIABETES NO ESTADO DE MINAS GERAIS

(1)

UTILIZAC ¸ ˜ AO DO PROCEDIMENTO INFER ˆ ENCIA DATA-DRIVEN PARA A ESTAT´ ISTICA ESPACIAL SCAN

EM CASOS DO DIABETES NO ESTADO DE MINAS GERAIS

Gilberto de Andrade ¹ , Anderson Ribeiro Duarte ¹

Revista da Estat´ıstica da UFOP, Vol I, 2011 - XI Semana da Matem´ atica e III Semana da Estat´ıstica, 2011 ISSN 2237-8111

Resumo: O m´ etodo de detec¸ c˜ ao e inferˆ encia de conglomerados (clusters) Scan Circular para mapas da dados agregados, procura por clusters de casos sem especificar o tamanho (n´ umero de

´

areas) ou localiza¸ c˜ ao geogr´ afica antecipadamente. Existe ainda, uma proposta de modifica¸ c˜ ao para o teste inferencial usual da estat´ıstica Scan, denominada inferˆ encia Data-Driven, incor- porando informa¸ c˜ oes adicionais sobre o tamanho do cluster mais prov´ avel encontrado. Ser´ a apresentada a estrutura das duas t´ ecnicas inferenciais, e ainda, ser´ a proposta uma avalia¸ c˜ ao atrav´ es do procedimento cl´ assico e tamb´ em do novo procedimento Data-Driven avaliando um conjunto de dados reais para ocorrˆ encia de casos do Diabetes no estado de Minas Gerais. As conclus˜ oes mostram que realmente o novo procedimento pode propiciar novas conclus˜ oes acerca da significˆ ancia de eventuais conglomerados existentes nos conjuntos de dados em estudo.

Palavras-chave: Scan Circular; clusters; inferˆ encia Data Driven; significˆ ancia estat´ıstica; Dia- betes.

Introdu¸ c˜ ao

Observa-se, recentemente, um crescente n´ umero de trabalhos sobre metodologias para de- tec¸ c˜ ao e avalia¸ c˜ ao de clusters espaciais e temporais. No enfoque deste texto, um cluster ´ e um conjunto conexo de regi˜ oes onde existe a ocorrˆ encia discrepante de casos localizados para al- gum fenˆ omeno de interesse. O processo de detec¸c˜ ao pode ser realizado em intervalos de tempo (cluster temporal) ou ent˜ ao, para localiza¸c˜ oes no espa¸co (cluster espacial), ou em ambos (cluster espa¸ co-temporal).

O problema de detec¸c˜ ao de clusters espaciais encontra-se presente em diversas situa¸c˜ oes, tais como problemas associados ` a sa´ ude p´ ublica (epidemiologia e vigilˆ ancia sindrˆ omica), criminologia, pesquisa de mercados, entre outros. E importante determinar modelos satisfat´ ´ orios para a execu¸ c˜ ao de procedimentos para detec¸c˜ ao e avalia¸ c˜ ao destes clusters. Este trabalho se restringe

`

a detec¸c˜ ao de clusters espaciais, entretanto as propostas aqui discutidas podem ser estendidas para a busca de clusters temporais e espa¸co-temporais.

Uma metodologia baseada em um teste de raz˜ ao de verossimilhan¸ca [6] prop˜ oe a estat´ıstica de teste Scan Espacial. Um caso particular de vasta utiliza¸c˜ ao da aplica¸c˜ ao de tal metodologia denominado Scan Circular [7] constroi um teste que encontra o cluster mais veross´ımil dentre todas as zonas circunscritas por c´ırculos de raios variados centrados em cada regi˜ ao do mapa.

O Scan Circular ´ e utilizado para detectar e avaliar clusters com uma forma¸c˜ ao temporal, espacial e espa¸ co-temporal. Isto ´ e feito atrav´ es de uma janela que gradualmente varre uma

1

Departamento de Matem´ atica, ICEB, UFOP,

gilberto est09@yahoo.com.br, anderson@iceb.ufop.br

(2)

regi˜ ao para um determinado intervalo de tempo e/ou at´ e alcan¸car um raio m´ aximo de varredura pr´ e-determinado.

Para aplica¸ c˜ ao do Scan Circular, considere um mapa dividido em m regi˜ oes, com uma po- pula¸ c˜ ao total P, e um n´ umero total de casos C para algum fenˆ omeno de interesse a ser estudado.

Defina um ponto arbitr´ ario no interior de cada regi˜ ao, tal ponto ser´ a denominado centr´ oide. Seja z, um conjunto conexo qualquer de regi˜ oes no mapa em estudo, definiremos este conjunto por zona. Assim, cada poss´ıvel zona no mapa em estudo, tem uma popula¸c˜ ao e um total de casos, P(z) e C(z) respectivamente. Estas zonas (candidatos a cluster) s˜ ao definidas por c´ırculos de raio arbitr´ ario r centrados em cada um dos m centr´ oides das regi˜ oes do mapa. Variando o valor r entre 0 e algum valor R pr´ e-estabelecido, podemos definir zonas determinadas por tais janelas circulares. A zona cujos centro´ıdes s˜ ao interiores ` a janela circular em avalia¸ c˜ ao ´ e dita zona definida por tal janela circular.

Cada zona ser´ a avaliada atrav´ es do logar´ıtimo da fun¸c˜ ao de verossimilhan¸ca para a dis- tribui¸ c˜ ao dos casos do fenˆ omeno de interesse. Um modelo comumente utilizado assume que o n´ umero de casos em cada ´ area segue distribui¸ c˜ ao Poisson com taxa proporcional ` a sua popula¸c˜ ao.

Agrupamentos s˜ ao ent˜ ao identificados para diferentes raios de varredura. Contudo, apenas alguns agrupamentos podem ser considerados de importˆ ancia. Para identificar estes, para cada agrupamento, ´ e testada a hip´ otese de o mesmo ter ocorrido ao acaso. O teste utilizado para esta finalidade ´ e o da raz˜ ao da verossimilhan¸ ca. O agrupamento mais relevante ´ e aquele que apresenta maior raz˜ ao de verossimilhan¸ca.

Dado o conjunto de todas as zonas em avalia¸ c˜ ao para os diferentes raios de varredura, ora denominado conjunto Z . Busca-se determinar as zonas que podem ser considerados de maior relevˆ ancia quanto ao valor do logaritmo da fun¸c˜ ao de verossimilhan¸ca. ´ E importante salientar que as zonas mais veross´ımeis, n˜ ao s˜ ao necessariamente clusters. Uma zona ser´ a dita cluster quando o valor do logaritmo da fun¸c˜ ao de verossimilhan¸ ca for considerado significativo do ponto de vista estat´ıstico. Para tal avalia¸c˜ ao, executa-se um teste de hip´ oteses com a Hip´ otese Nula de que n˜ ao existe cluster no mapa em estudo, contra a Hip´ otese Alternativa de que existe pelo menos um cluster no mapa em estudo.

A estat´ıstica de teste Scan ser´ a definida ent˜ ao como a raz˜ ao de verossimilhan¸cas. Sob a validade da Hip´ otese Nula e assumindo o modelo Poisson, o n´ umero de casos esperados em uma poss´ıvel zona z ´ e dado por µ(z) = C ^P _P ^(z) . Desta forma, temos o risco relativo na zona z dado por I(z) = ^C(z) _µ(z) . J´ a o risco relativo fora da zona z ´ e dado por O(z) = ^C _C ⁻ ₋ ^C(z) _µ(z) . Para L ₀ sendo a fun¸ c˜ ao de veross´ımilhan¸ ca sob a Hip´ otese Nula e L(z) sendo a fun¸c˜ ao de veross´ımilhan¸ca sob a Hip´ otese Alternativa. O logaritmo da raz˜ ao de verossimilan¸ ca assumindo o modelo Poisson ´ e dada por:

LLR(z) =

{ C(z) log (I(z)) + (C − C(z)) log (O(z)) se I(z) > 1

0 caso contr´ ario

O logaritmo da raz˜ ao de verossimilhan¸ ca ´ e ent˜ ao maximizado no conjunto Z. O formato de defini¸c˜ ao aqui exposto para o conjunto Z ´ e o que define o m´ etodo Scan Circular. Existem outros crit´ erios para a defini¸c˜ ao do conjunto Z, como por exemplo, janelas el´ıpticas, ou at´ e mesmo uma busca exaustiva sobre todas as poss´ıveis zonas conexas no mapa em estudo. No caso de considerarmos Z como o conjunto de todas as zonas conexas, o problema se tornaria impratic´ avel para mapas com m da ordem de algumas centenas.

Para concluir o teste de hip´ oteses, a significˆ ancia estat´ıstica de uma poss´ıvel solu¸c˜ ao, obtida

atrav´ es da distribui¸c˜ ao dos casos observados, em geral, ´ e verificada atrav´ es de simula¸ c˜ oes de

Monte Carlo, dado o desconhecimento da distribui¸c˜ ao exata da estat´ıstica de teste. No procedi-

mento de Monte Carlo, casos simulados s˜ ao distribu´ıdos aleatoriamente no mapa em estudo, de

forma que cada regi˜ ao recebe, em m´ edia, um n´ umero de casos proporcional ` a sua popula¸c˜ ao. A

significˆ ancia estat´ıstica, de uma solu¸c˜ ao obtida atrav´ es da t´ ecnica Scan Circular, ´ e considerada

sem pr´ e-especifica¸c˜ ao do n´ umero de regi˜ oes e/ou da localiza¸c˜ ao do clusters mais veross´ımel. O

(3)

as solu¸c˜ oes mais veross´ımeis obtidas de cada distribui¸c˜ ao de casos simulada. Esta compara¸c˜ ao

´ e feita atrav´ es da distribui¸ c˜ ao emp´ırica para a estat´ıstica de teste constru´ıda atrav´ es dos dados da simula¸c˜ ao de Monte Carlo.

Tendo como base a metodologia da Scan Circular, o procedimento inferencial original foi discutido em [2] e uma nova t´ ecnica inferencial, mais robusta para o problema foi apresentada.

A nova t´ ecnica denominada inferˆ encia Data-driven, leva em considera¸c˜ ao o conhecimento da quantidade de regi˜ oes que comp˜ oem a solu¸c˜ ao mais veross´ımel obtida dos dados observados.

Neste caso a constru¸ c˜ ao da distribui¸c˜ ao emp´ırica ´ e condicionada ao conhecimento da quantidade de regi˜ oes na solu¸c˜ ao mais veross´ımel. Este procedimento ser´ a melhor discutido na se¸c˜ ao que trata dos aspectos metodol´ ogicos deste trabalho.

Objetivo

O procedimento de inferˆ encia Data-Driven foi apresentado e discutido atrav´ es de resultados baseados em dados simulados. Foi observado que efetivamente existe uma diferen¸ca significativa na an´ alise de resultados quanto a efetiva significˆ ancia dos clusters detectados. Por outro lado, ainda n˜ ao existem estudos envolvendo esta t´ ecnica na avalia¸c˜ ao de dados reais.

O objetivo central deste trabalho ´ e verificar as modifica¸c˜ oes de tomada de decis˜ ao que podem ocorrer dada a mudan¸ ca do procedimento inferencial quando analisando um conjunto de dados reais. Foram obtidos dados referentes a casos do Diabetes no estado de Minas Gerais para a realiza¸ c˜ ao deste estudo.

O Diabetes ´ e uma doen¸ ca crˆ onica que ocorre quando o pˆ ancreas n˜ ao produz insulina sufici- ente, ou quando o corpo n˜ ao pode utilizar eficazmente a insulina que produz. Hiperglicemia, ou a¸c´ ucar no sangue elevado, ´ e um efeito comum do Diabetes descontrolado e ao longo do tempo produz s´ erios danos a muitos dos sistemas do corpo humano, especialmente os nervos e vasos sangu´ıneos. No banco de dados de casos reais para o Diabetes no Estado de Minas Gerais, consideramos como popula¸c˜ ao de risco, homens e mulheres com mais de 45 anos de idade. Tota- lizando uma popula¸c˜ ao de risco de 7033712, entre o per´ıodo de janeiro de 2002 at´ e maio de 2011.

Para esse estudo, no banco de dados utilizado consideramos conjuntamente Diabetes do Tipo 1 e Tipo 2, totalizando neste per´ıodo, a ocorrˆ encia de 28039 casos. A popula¸c˜ ao de risco e tamb´ em os casos ocorridos est˜ ao distribu´ıdos ao longo dos munic´ıpios nos quais ocorreu a identifica¸ c˜ ao da doen¸ca. O mapa em estudo portanto ser´ a dividido por munic´ıpios, totalizando 853 regi˜ oes de estudo.

A popula¸ c˜ ao total usada nesse estudo ´ e referente ao Censo Demogr´ afico de 2010, segundo informa¸c˜ oes do Instituto Brasileiro de Geografia e Estat´ıstica, IBGE, [5]. Os conjuntos de dados referentes ` as popula¸c˜ oes de risco foram obtidos no site do Minist´ erio da Sa´ ude [4] e tamb´ em podem ser encontrados em [3].

Metodologia

A utiliza¸c˜ ao do procedimento inferencial cl´ assico para o Scan Circular compara a zona em an´ alise obtida dos dados observados com a distribui¸ c˜ ao emp´ırica obtida atrav´ es de simula¸ c˜ oes de Monte Carlo. Uma preocupa¸ c˜ ao imediata seria questionar se a zona em an´ alise obtida dos dados observados est´ a sendo comparada com uma distribui¸c˜ ao emp´ırica produzida sob a validade da hip´ otese nula, mas atrav´ es de zonas que se assemelham o m´ aximo poss´ıvel da obtida atrav´ es dos dados observados.

O estudo em [2] vem exatamente contradizer este fato, os estudos desse trabalho mostram que a grande maioria das zonas produzidas atrav´ es do procedimento de simula¸c˜ ao n˜ ao se assemelham muito ` a zona obtido dos dados observados, especiamente quando est´ a ´ e composta por um n´ umero elevado de regi˜ oes.

Em sua formula¸ c˜ ao original, o procedimento inferencial cl´ assico calcula a importˆ ancia do

(4)

cluster mais veross´ımil baseado na seguinte pergunta: “Dado que o cluster candidato encontrado tem estat´ıstica de teste igual ao valor x, qual ´ e a probabilidade de encontrar uma zona mais veross´ımil sob a hip´ otese nula com a estat´ıstica de teste maior que o valor x?”

O procedimanto inferencial Data-Driven propoe utilizar as informa¸c˜ oes sobre a quantidade de regi˜ oes da zona em an´ alise obtida dos dados observados. Neste caso, a seguinte pergunta

´ e formulada: “Dado que o cluster candidato encontrado tem estat´ıstica de teste igual ao valor x e cont´ em k regi˜ oes na sua composi¸ c˜ ao, qual ´ e a probabilidade de encontrar uma zona mais veross´ımil sob a hip´ otese nula com a estat´ıstica de teste maior que o valor x composta por exatamente k regi˜ oes?”

Dado que o Scan Circular encontrou uma zona nos dados observados com k regi˜ oes, ent˜ ao a sua significˆ ancia estat´ıstica ainda ser´ a obtida atrav´ es de simula¸c˜ oes de Monte Carlo, mas seleci- onando apenas os r´ eplicas em que as solu¸c˜ oes tˆ em exatamente k regi˜ oes. A distribui¸c˜ ao emp´ırica que considera solu¸c˜ oes de qualquer tamanho ´ e substitu´ıda ent˜ ao pela distribui¸c˜ ao emp´ırica Scan _k que ´ e obtida considerando apenas as solu¸c˜ oes de tamanho exatamente igual a k.

Atrav´ es de extensos testes num´ ericos [1] foi mostrado que, sob a validade da hip´ otese nula, a distribui¸ c˜ ao emp´ırica para a Estat´ıstica Scan ´ e aproximada pela bem conhecida distribui¸c˜ ao de Gumbel

f (x) = 1

β e ⁻

^x−µ^β

e ⁻ ^e

⁻

x−µ β

com parˆ ametros µ (loca¸c˜ ao) e β (escala). Usando uma aproxima¸ c˜ ao semi-paramˆ etrica, a distri- bui¸ c˜ ao para a estat´ıstica de teste pode ser estimada usando um n´ umero bem menor de replica¸c˜ oes de Monte Carlo. Por exemplo, os valores cr´ıticos obtidos atrav´ es da distribui¸c˜ ao Gumbel ajus- tada, atrav´ es de 100 r´ eplicas de Monte Carlo, s˜ ao t˜ ao precisos quanto valores cr´ıticos obtidos atrav´ es da distribui¸c˜ ao emp´ırica obtida atrav´ es de 10000 r´ eplicas de Monte Carlo.

Da mesma forma que ´ e poss´ıvel executar o ajuste para a distribui¸c˜ ao Gumbel no proce- dimento inferencial cl´ assico para a avalia¸ c˜ ao da significˆ ancia dos clusters, o ajuste ´ e tamb´ em bastante satisfat´ orio para as distribui¸c˜ oes emp´ıricas Scan _k definindo ent˜ ao a distribui¸c˜ ao ajus- tada Gumbel k [2].

Avalia¸ c˜ oes Num´ ericas

Considerando o banco de dados para os casos do Diabetes (j´ a mencionado anteriormente), o procedimento Scan Circular foi executado para a detec¸c˜ ao da poss´ıvel existˆ encia de clusters no mapa em estudo. Atrav´ es do procedimento inferencial cl´ assico foi verificada a existˆ encia de solu¸ c˜ oes significativas.

Neste momento, uma nova defini¸c˜ ao se faz importante, n˜ ao buscamos apenas avaliar a zona mais veross´ımil encontrada no mapa de dados observados. Buscamos avaliar todas as solu¸c˜ oes significativas, do ponto de vista estat´ıstico, para os dados em an´ alise. Para tanto, definiremos os conceitos de cluster prim´ ario, secund´ ario, terci´ ario e assim sucessivamente.

Definiremos como cluster prim´ ario, a solu¸c˜ ao mais significativa obtida no mapa em estudo.

J´ a o cluster secund´ ario, ´ e a solu¸ c˜ ao mais significativa obtida no mapa em estudo, que n˜ ao intercepta o cluster prim´ ario. O cluster terci´ ario ´ e a solu¸c˜ ao mais significativa obtida no mapa em estudo, que n˜ ao intercepta os clusters prim´ ario e o secund´ ario e assim sucessivamente para as demais solu¸c˜ oes.

De posse do conjunto de dados, 10000 simula¸ c˜ oes de Monte Carlo sob a validade da hip´ otese nula foram executadas, com o intu´ıto de produzir a distribui¸c˜ ao emp´ırica usual do procedimento inferencial cl´ assico. Visando apenas construir uma estrat´ egia de verifica¸c˜ ao, de forma arbitr´ aria foi escolhido o n´ıvel de significˆ ancia α = 0.01 para a determina¸c˜ ao de quais solu¸c˜ oes obtidas eram efetivamente significativas do ponto de vista estat´ıstico.

Atrav´ es desta an´ alise, verificou-se a presen¸ca de 36 solu¸c˜ oes significativas no mapa, todas eles

(5)

Dadas estas solu¸c˜ oes significativas, a tomada de decis˜ ao do ponto de vista de sa´ ude p´ ublica seria por estabelecer algum tipo de medida associada ` as regi˜ oes que pertencentes ` a uni˜ ao destas 36 solu¸ c˜ oes significativas.

A informa¸c˜ ao de maior interesse neste momento seria considerar se a troca do procedimento inferencial levaria a uma conclus˜ ao diferente, que poderia por exemplo, modificar a aloca¸c˜ ao de recursos na tomada de decis˜ ao acerca das medidas preventivas sobre a dissemina¸c˜ ao da doen¸ca em estudo.

O procedimento inferencial Data-Driven foi ent˜ ao considerado para cada uma quantidade distinta de regi˜ oes encontrando 39 solu¸c˜ oes significativas. Para as solu¸c˜ oes muito significativas (p-valor muito baixo), como j´ a era previsto, as conclus˜ oes foram iguais para os dois procedi- mentos inferenciais, entretanto, para solu¸ c˜ oes cujo p-valor se aproximava do limiar de 1% uma an´ alise mais cuidados deve ser observada. Os resultados s˜ ao apresentados na Tabela 1.

Tabela 1: Solu¸ c˜ oes avaliadas para os casos do Diabetes atrav´ es da distribui¸c˜ ao emp´ırica

Solu¸ c˜ ao Quant. de Estat´ıstica Valor cr´ıtico Conclus˜ ao Valor cr´ıtico Conclus˜ ao

observada regi˜ oes k de teste Scan do teste Scan

k

do teste

1 171 2523.94019 11.34048 significativo − inconclusivo

2 65 316.16461 11.34048 significativo − inconclusivo

3 1 160.63046 11.34048 significativo 10.27693 significativo

.. . .. . .. . .. . .. . .. . .. .

11 1 43.76292 11.34048 significativo 10.27693 significativo

12 5 43.35877 11.34048 significativo 11.21412 significativo

13 1 41.69544 11.34048 significativo 10.27693 significativo

.. . .. . .. . .. . .. . .. . .. .

36 1 12.43443 11.34048 significativo 10.27693 significativo

37 1 11.29505 11.34048 n˜ ao significativo 10.27693 significativo

38 1 11.24991 11.34048 n˜ ao significativo 10.27693 significativo

39 1 11.08631 11.34048 n˜ ao significativo 10.27693 significativo

40 1 10.20864 11.34048 n˜ ao significativo 10.27693 n˜ ao significativo

As duas primeiras solu¸c˜ oes tiveram a decis˜ ao do teste classificada como inconclusiva, quando utilizando o procedimento Data-Driven. Isto se deve ao pequeno n´ umero de componentes amos- trais obtidos com estas quantidades de regi˜ oes no procedimento de Monte Carlo. Entretanto, parece ´ obvio considerar que tais solu¸ c˜ oes seriam ditas significativas ao considerarmos um maior n´ umero de simula¸ c˜ oes. Esta conclus˜ ao se deve ao n´ umero de solu¸c˜ oes significativas que s˜ ao obti- das mesmo com estat´ıstica de teste de valor bastante inferior ` as duas primeiras solu¸c˜ oes, mesmo considerando os dois procedimentos inferenciais. As solu¸c˜ oes 4 at´ e 10 e 14 a 35 s˜ ao significa- tivas nos dois procedimentos e todas compostas por apenas uma regi˜ ao, em virtude disto, n˜ ao foram expostas na Tabela 1. O procedimento inferencial cl´ assico e o procedimento Data-Driven foi tamb´ em considerado para todas as solu¸c˜ oes atrav´ es do ajuste da distribui¸c˜ ao Gumbel. As conclus˜ oes obtidas foram as mesmas e podem ser observadas na Tabela 2.

Tamb´ em para a distribui¸ c˜ ao Gumbel ajustada, as duas primeiras solu¸c˜ oes tiveram a decis˜ ao do teste classificada como inconclusiva, quando utlizando o procedimento Data-Driven. Nova- mente, isto se deve ao pequeno n´ umero de componentes amostrais obtidos com estas quantidades de regi˜ oes no procedimento de Monte Carlo para a estima¸c˜ ao de parˆ amteros para a distribui¸c˜ ao ajustada. Entretanto, tamb´ em parece ´ obvio considerar que tais solu¸c˜ oes seriam ditas significa- tivas ao considerarmos um maior n´ umero de simula¸c˜ oes. Esta conclus˜ ao se deve ao n´ umero de solu¸ c˜ oes significativas que s˜ ao obtidas mesmo com estat´ıstica de teste de valor bastante inferior

`

as duas primeiras solu¸ c˜ oes, mesmo considerando os dois procedimentos inferenciais. Conside-

rando a an´ alise atrav´ es da distribui¸ c˜ ao Gumbel, novamente as solu¸c˜ oes 4 at´ e 10 e 14 a 35 s˜ ao

significativas nos dois procedimentos e todas compostas por apenas uma regi˜ ao, em virtude

disto, n˜ ao foram expostas na Tabela 2.

(6)

Tabela 2: Solu¸ c˜ oes avaliadas para os casos do Diabetes atrav´ es da distribui¸c˜ ao Gumbel

Solu¸ c˜ ao Quant. de Estat´ıstica Valor cr´ıtico Conclus˜ ao Valor cr´ıtico Conclus˜ ao

observada regi˜ oes k de teste Gumbel do teste Gumbel

k

do teste

1 171 2523.94019 11.35769 significativo − inconclusivo

2 65 316.16461 11.35769 significativo − inconclusivo

3 1 160.63046 11.35769 significativo 10.21647 significativo

. .. .

.. .

..

11 1 43.76292 11.35769 significativo 10.21647 significativo

12 5 43.35877 11.35769 significativo 11.16788 significativo

13 1 41.69544 11.35769 significativo 10.21647 significativo

.. . .. . .. . .. . .. . .. . .. .

36 1 12.43443 11.35769 significativo 10.21647 significativo

37 1 11.29505 11.35769 n˜ ao significativo 10.21647 significativo

38 1 11.24991 11.35769 n˜ ao significativo 10.21647 significativo

39 1 11.08631 11.35769 n˜ ao significativo 10.21647 significativo

40 1 10.20864 11.35769 n˜ ao significativo 10.21647 n˜ ao significativo

Verificou-se que trˆ es solu¸c˜ oes compostas cada uma por um munic´ıpio (Urucˆ ania, Arapor˜ a e Patos de Minas) foram consideradas n˜ ao significativas no procedimento inferencial cl´ assico, mas significativas quando utilizado o procedimento inferencial Data-Driven. Esta conclus˜ ao ´ e a mesma tanto usando a distribui¸c˜ ao emp´ırica, quanto utilizando a distribui¸c˜ ao ajustada Gumbel.

Em algum momento, uma an´ alise descuidada pode considerar que se trata de um diferen¸ca pequena quanto ` as conclus˜ oes. Entretanto, vale ressaltar que a retirada de trˆ es municipios da regi˜ ao dita significativa para a ocorrˆ encia de casos do Diabetes, pode levar a uma distribui¸c˜ ao de recursos na tomada de decis˜ ao que se torne mais eficiente quanto a preven¸c˜ ao para a ocorrˆ encia de futuros casos do Diabetes, inclusive considerando, em particular, o caso de um munic´ıpio de popula¸c˜ ao significativa como Patos de Minas.

A figura 1 ilustra a diferen¸ca entre o conjunto de solu¸c˜ oes significativas utilizando o proce- dimento cl´ assico e o procedimento Data-Driven.

Figura 1: Mapa de Minas Gerais dividido em munic´ıpios; em tons de cinza do mais

claro ao mais escuro, solu¸c˜ ao prim´ aria, secund´ aria, demais solu¸c˜ oes significativas nos dois

m´ etodos,respectivamente; em vermelho as solu¸c˜ oes significativas apenas no Data-Driven.

(7)

As solu¸c˜ oes de conclus˜ ao conflitante revelaram estat´ıstica de teste com valores 11.29505, 11.24991 e 11.08631 respectivamente. O valor cr´ıtico para α = 0.01 utilizando o procedimento cl´ assico atrav´ es da distribui¸c˜ ao emp´ırica foi de 11.34048, enquanto o valor cr´ıtico para zonas compostas por uma regi˜ ao atrav´ es do procedimento Data-Driven com a distribui¸c˜ ao emp´ırica foi de 10.27693, que mostra a modifica¸ c˜ ao na conclus˜ ao quanto a significˆ ancia das solu¸c˜ oes observadas. Analogamente para as mesmas solu¸ c˜ oes considerando n´ıvel de signficˆ ancia α = 0.01 e utilizando o procedimento cl´ assico atrav´ es da distribui¸c˜ ao ajustada Gumbel, o valor cr´ıtico foi de 11.35769, enquanto o valor cr´ıtico para zonas compostas por trˆ es regi˜ oes atrav´ es do procedimento Data-Driven com a distribui¸c˜ ao ajustada Gumbel foi de 10.21647, que mostra novamente, a modifica¸ c˜ ao na conclus˜ ao quanto a significˆ ancia das solu¸c˜ oes observadas.

Conclus˜ oes

O processo de Inferˆ encia para procedimentos de detec¸c˜ ao e avalia¸ c˜ ao de clusters atrav´ es da estat´ıstica Scan foi avaliado na sua forma cl´ assica e tamb´ em atrav´ es da estrat´ egia inferencial data-Driven. O procedimento cl´ assico considera todos os clusters mais veross´ımeis encontrado em em diversas simula¸ c˜ oes de Monte Carlo sob a validade da hip´ otese nula de n˜ ao existˆ encia de clusters no mapa em estudo, a fim de construir a distribui¸c˜ ao emp´ırica para a estat´ıstica de teste, independentemente do tamanho do cluster e sua localiza¸c˜ ao.

A abordagem usual apresenta uma desvantagem, ´ e assumida implicitamente a independˆ encia entre a estat´ıstica de teste e as diversas poss´ıveis quantidades de regi˜ oes que podem compor o cluster mais veross´ımil. Experimentos num´ ericos atestam que em alguns caso esta hip´ otese pode n˜ ao ser verdadeira. Considerando que o cluster observado mais veross´ımil seja composto por k regi˜ oes, o processo de inferˆ encia cl´ assica avalia a sua significˆ ancia estat´ıstica com base no comportamento de uma maioria de clusters mais veross´ımeis, ao longo das simula¸c˜ oes de Monte Carlo, cujos tamanhos (quantidade de regi˜ oes) s˜ ao diferentes do valor k. Este trabalho utiliza uma outra forma de avalia¸c˜ ao, denominada Inferˆ encia Data-Driven, que leva em conta apenas os grupos de solu¸c˜ oes mais veross´ıeis encontradas ao longo das simula¸c˜ oes de Monte Carlo, cuja quantidade de regi˜ oes seja exatamente a mesma do cluster mais veross´ımil obtido dos dados observados para o mapa em estudo. A inferˆ encia Data-Driven pode ainda ser aplicada a dados pontuais do tipo Caso/Controle considerando o n´ umero de casos e a popula¸c˜ ao (pontos) dentro do clusters.

Nesta an´ alise de caso, considerando os dados do Diabetes no estado de Minas Gerais, podemos concluir que em trˆ es solu¸ c˜ oes compostas cada uma por um munic´ıpio (Urucˆ ania, Arapor˜ a e Patos de Minas) foram consideradas n˜ ao significativas no procedimento inferencial cl´ assico, mas significativas quando utilizado o procedimento inferencial Data-Driven, tamb´ em tendo a mesma conclus˜ ao para a distribu´ı¸ c˜ ao emp´ırica e para a distribui¸c˜ ao Gumbel ajustada. Novamente ressaltamos que a retirada de trˆ es municipios da regi˜ ao dita significativa para a ocorrˆ encia de casos do Diabetes, pode levar a uma distribui¸c˜ ao de recursos na tomada de decis˜ ao que se torne mais eficiente quanto a preven¸ c˜ ao para a ocorrˆ encia de futuros casos do Diabetes, inclusive considerando, em particular, o caso de um munic´ıpio de popula¸c˜ ao significativa como Patos de Minas.

Referˆ encias

[1] Abrams, A. M., Kleinman, K. e Kulldorff, M., Gumbel based p-value approxima- tions for spatial scan statistics, International Journal of Health Geographics 9 (2010) 61 (online version).

[2] Almeida, A. C. L., Duarte, A. R., Duczmal, L. H., Oliveira, F. L. P., Takahashi,

R. H. C. , Data-driven inference for the spatial scan statistic, International Journal of

Health Geographics 10 (2010) 47 (online version).

(8)

[3] Almeida, C. P. , Aplica¸c˜ ao da Fun¸ c˜ ao Intensidade no Delineamento de Clusters de Doen¸ca e uma Proposta da Fun¸ c˜ ao Intensidade Ponderada, Disserta¸ c˜ ao de Mestrado, UFMG-Brasil, Departamento de Estat´ıstica (2010).

[4] Sistema ´ Unico de Sa´ ude-SUS. Dispon´ıvel em: <http://www.datasus.gov.br>. Acesso em:

01 nov. 2011.

[5] IBGE - Instituto Brasileiro de Geografia e Estat´ıstica. Dispon´ıvel em:

<http://www.ibge.gov.br>. Acesso em: 01 nov. 2011.

[6] Kulldorff, M. , A Spatial Scan Statistic, Communications in Statistics: Theory and Methods 26(6) (1997) 1481-1496.

[7] Kulldorff, M. e Nagarwalla, N. , Spatial disease clusters: detection and inference, Statistics in Medicine 14 (1995) 799-810.

Agradecimentos

Os autores agradecem o apoio recebido atrav´ es do projeto de inicia¸c˜ ao cient´ıfica PROBIC

apoiado pela FAPEMIG.

UTILIZAÇÃO DO PROCEDIMENTO INFERÊNCIA DATA-DRIVEN PARA A ESTATÍSTICA ESPACIAL SCAN EM CASOS DO DIABETES NO ESTADO DE MINAS GERAIS

UTILIZAC ¸ ˜ AO DO PROCEDIMENTO INFER ˆ ENCIA DATA-DRIVEN PARA A ESTAT´ ISTICA ESPACIAL SCAN

EM CASOS DO DIABETES NO ESTADO DE MINAS GERAIS

Gilberto de Andrade 1 , Anderson Ribeiro Duarte 1

Revista da Estat´ıstica da UFOP, Vol I, 2011 - XI Semana da Matem´ atica e III Semana da Estat´ıstica, 2011 ISSN 2237-8111

Resumo: O m´ etodo de detec¸ c˜ ao e inferˆ encia de conglomerados (clusters) Scan Circular para mapas da dados agregados, procura por clusters de casos sem especificar o tamanho (n´ umero de

´

Palavras-chave: Scan Circular; clusters; inferˆ encia Data Driven; significˆ ancia estat´ıstica; Dia- betes.

Introdu¸ c˜ ao

`

a detec¸c˜ ao de clusters espaciais, entretanto as propostas aqui discutidas podem ser estendidas para a busca de clusters temporais e espa¸co-temporais.

O Scan Circular ´ e utilizado para detectar e avaliar clusters com uma forma¸c˜ ao temporal, espacial e espa¸ co-temporal. Isto ´ e feito atrav´ es de uma janela que gradualmente varre uma

Departamento de Matem´ atica, ICEB, UFOP,

gilberto est09@yahoo.com.br, anderson@iceb.ufop.br

regi˜ ao para um determinado intervalo de tempo e/ou at´ e alcan¸car um raio m´ aximo de varredura pr´ e-determinado.

Para aplica¸ c˜ ao do Scan Circular, considere um mapa dividido em m regi˜ oes, com uma po- pula¸ c˜ ao total P, e um n´ umero total de casos C para algum fenˆ omeno de interesse a ser estudado.

LLR(z) =

{ C(z) log (I(z)) + (C − C(z)) log (O(z)) se I(z) > 1

0 caso contr´ ario

Para concluir o teste de hip´ oteses, a significˆ ancia estat´ıstica de uma poss´ıvel solu¸c˜ ao, obtida

atrav´ es da distribui¸c˜ ao dos casos observados, em geral, ´ e verificada atrav´ es de simula¸ c˜ oes de

Monte Carlo, dado o desconhecimento da distribui¸c˜ ao exata da estat´ıstica de teste. No procedi-

mento de Monte Carlo, casos simulados s˜ ao distribu´ıdos aleatoriamente no mapa em estudo, de

forma que cada regi˜ ao recebe, em m´ edia, um n´ umero de casos proporcional ` a sua popula¸c˜ ao. A

significˆ ancia estat´ıstica, de uma solu¸c˜ ao obtida atrav´ es da t´ ecnica Scan Circular, ´ e considerada

sem pr´ e-especifica¸c˜ ao do n´ umero de regi˜ oes e/ou da localiza¸c˜ ao do clusters mais veross´ımel. O

as solu¸c˜ oes mais veross´ımeis obtidas de cada distribui¸c˜ ao de casos simulada. Esta compara¸c˜ ao

´ e feita atrav´ es da distribui¸ c˜ ao emp´ırica para a estat´ıstica de teste constru´ıda atrav´ es dos dados da simula¸c˜ ao de Monte Carlo.

Tendo como base a metodologia da Scan Circular, o procedimento inferencial original foi discutido em [2] e uma nova t´ ecnica inferencial, mais robusta para o problema foi apresentada.

A nova t´ ecnica denominada inferˆ encia Data-driven, leva em considera¸c˜ ao o conhecimento da quantidade de regi˜ oes que comp˜ oem a solu¸c˜ ao mais veross´ımel obtida dos dados observados.

Neste caso a constru¸ c˜ ao da distribui¸c˜ ao emp´ırica ´ e condicionada ao conhecimento da quantidade de regi˜ oes na solu¸c˜ ao mais veross´ımel. Este procedimento ser´ a melhor discutido na se¸c˜ ao que trata dos aspectos metodol´ ogicos deste trabalho.

Objetivo

Metodologia

Em sua formula¸ c˜ ao original, o procedimento inferencial cl´ assico calcula a importˆ ancia do

cluster mais veross´ımil baseado na seguinte pergunta: “Dado que o cluster candidato encontrado tem estat´ıstica de teste igual ao valor x, qual ´ e a probabilidade de encontrar uma zona mais veross´ımil sob a hip´ otese nula com a estat´ıstica de teste maior que o valor x?”

O procedimanto inferencial Data-Driven propoe utilizar as informa¸c˜ oes sobre a quantidade de regi˜ oes da zona em an´ alise obtida dos dados observados. Neste caso, a seguinte pergunta

Atrav´ es de extensos testes num´ ericos [1] foi mostrado que, sob a validade da hip´ otese nula, a distribui¸ c˜ ao emp´ırica para a Estat´ıstica Scan ´ e aproximada pela bem conhecida distribui¸c˜ ao de Gumbel

f (x) = 1

β e −

e − e

Avalia¸ c˜ oes Num´ ericas

Definiremos como cluster prim´ ario, a solu¸c˜ ao mais significativa obtida no mapa em estudo.

Atrav´ es desta an´ alise, verificou-se a presen¸ca de 36 solu¸c˜ oes significativas no mapa, todas eles

Dadas estas solu¸c˜ oes significativas, a tomada de decis˜ ao do ponto de vista de sa´ ude p´ ublica seria por estabelecer algum tipo de medida associada ` as regi˜ oes que pertencentes ` a uni˜ ao destas 36 solu¸ c˜ oes significativas.

Tabela 1: Solu¸ c˜ oes avaliadas para os casos do Diabetes atrav´ es da distribui¸c˜ ao emp´ırica

Solu¸ c˜ ao Quant. de Estat´ıstica Valor cr´ıtico Conclus˜ ao Valor cr´ıtico Conclus˜ ao

observada regi˜ oes k de teste Scan do teste Scan

do teste

1 171 2523.94019 11.34048 significativo − inconclusivo

2 65 316.16461 11.34048 significativo − inconclusivo

3 1 160.63046 11.34048 significativo 10.27693 significativo

.. . .. . .. . .. . .. . .. . .. .

11 1 43.76292 11.34048 significativo 10.27693 significativo

12 5 43.35877 11.34048 significativo 11.21412 significativo

13 1 41.69544 11.34048 significativo 10.27693 significativo

.. . .. . .. . .. . .. . .. . .. .

36 1 12.43443 11.34048 significativo 10.27693 significativo

37 1 11.29505 11.34048 n˜ ao significativo 10.27693 significativo

38 1 11.24991 11.34048 n˜ ao significativo 10.27693 significativo

39 1 11.08631 11.34048 n˜ ao significativo 10.27693 significativo

40 1 10.20864 11.34048 n˜ ao significativo 10.27693 n˜ ao significativo

`

as duas primeiras solu¸ c˜ oes, mesmo considerando os dois procedimentos inferenciais. Conside-

rando a an´ alise atrav´ es da distribui¸ c˜ ao Gumbel, novamente as solu¸c˜ oes 4 at´ e 10 e 14 a 35 s˜ ao

significativas nos dois procedimentos e todas compostas por apenas uma regi˜ ao, em virtude

disto, n˜ ao foram expostas na Tabela 2.

Tabela 2: Solu¸ c˜ oes avaliadas para os casos do Diabetes atrav´ es da distribui¸c˜ ao Gumbel

Solu¸ c˜ ao Quant. de Estat´ıstica Valor cr´ıtico Conclus˜ ao Valor cr´ıtico Conclus˜ ao

observada regi˜ oes k de teste Gumbel do teste Gumbel

do teste

1 171 2523.94019 11.35769 significativo − inconclusivo

2 65 316.16461 11.35769 significativo − inconclusivo

3 1 160.63046 11.35769 significativo 10.21647 significativo

. .. .

.. .

.. .

.. .

.. .

.. .

..

Gilberto de Andrade ¹ , Anderson Ribeiro Duarte ¹

β e ⁻

e ⁻ ^e