UTILIZAC ¸ ˜ AO DO PROCEDIMENTO INFER ˆ ENCIA DATA-DRIVEN PARA A ESTAT´ ISTICA ESPACIAL SCAN
EM CASOS DO DIABETES NO ESTADO DE MINAS GERAIS
Gilberto de Andrade 1 , Anderson Ribeiro Duarte 1
Revista da Estat´ıstica da UFOP, Vol I, 2011 - XI Semana da Matem´ atica e III Semana da Estat´ıstica, 2011 ISSN 2237-8111
Resumo: O m´ etodo de detec¸ c˜ ao e inferˆ encia de conglomerados (clusters) Scan Circular para mapas da dados agregados, procura por clusters de casos sem especificar o tamanho (n´ umero de
´
areas) ou localiza¸ c˜ ao geogr´ afica antecipadamente. Existe ainda, uma proposta de modifica¸ c˜ ao para o teste inferencial usual da estat´ıstica Scan, denominada inferˆ encia Data-Driven, incor- porando informa¸ c˜ oes adicionais sobre o tamanho do cluster mais prov´ avel encontrado. Ser´ a apresentada a estrutura das duas t´ ecnicas inferenciais, e ainda, ser´ a proposta uma avalia¸ c˜ ao atrav´ es do procedimento cl´ assico e tamb´ em do novo procedimento Data-Driven avaliando um conjunto de dados reais para ocorrˆ encia de casos do Diabetes no estado de Minas Gerais. As conclus˜ oes mostram que realmente o novo procedimento pode propiciar novas conclus˜ oes acerca da significˆ ancia de eventuais conglomerados existentes nos conjuntos de dados em estudo.
Palavras-chave: Scan Circular; clusters; inferˆ encia Data Driven; significˆ ancia estat´ıstica; Dia- betes.
Introdu¸ c˜ ao
Observa-se, recentemente, um crescente n´ umero de trabalhos sobre metodologias para de- tec¸ c˜ ao e avalia¸ c˜ ao de clusters espaciais e temporais. No enfoque deste texto, um cluster ´ e um conjunto conexo de regi˜ oes onde existe a ocorrˆ encia discrepante de casos localizados para al- gum fenˆ omeno de interesse. O processo de detec¸c˜ ao pode ser realizado em intervalos de tempo (cluster temporal) ou ent˜ ao, para localiza¸c˜ oes no espa¸co (cluster espacial), ou em ambos (cluster espa¸ co-temporal).
O problema de detec¸c˜ ao de clusters espaciais encontra-se presente em diversas situa¸c˜ oes, tais como problemas associados ` a sa´ ude p´ ublica (epidemiologia e vigilˆ ancia sindrˆ omica), criminologia, pesquisa de mercados, entre outros. E importante determinar modelos satisfat´ ´ orios para a execu¸ c˜ ao de procedimentos para detec¸c˜ ao e avalia¸ c˜ ao destes clusters. Este trabalho se restringe
`
a detec¸c˜ ao de clusters espaciais, entretanto as propostas aqui discutidas podem ser estendidas para a busca de clusters temporais e espa¸co-temporais.
Uma metodologia baseada em um teste de raz˜ ao de verossimilhan¸ca [6] prop˜ oe a estat´ıstica de teste Scan Espacial. Um caso particular de vasta utiliza¸c˜ ao da aplica¸c˜ ao de tal metodologia denominado Scan Circular [7] constroi um teste que encontra o cluster mais veross´ımil dentre todas as zonas circunscritas por c´ırculos de raios variados centrados em cada regi˜ ao do mapa.
O Scan Circular ´ e utilizado para detectar e avaliar clusters com uma forma¸c˜ ao temporal, espacial e espa¸ co-temporal. Isto ´ e feito atrav´ es de uma janela que gradualmente varre uma
1
Departamento de Matem´ atica, ICEB, UFOP,
gilberto est09@yahoo.com.br, anderson@iceb.ufop.br
regi˜ ao para um determinado intervalo de tempo e/ou at´ e alcan¸car um raio m´ aximo de varredura pr´ e-determinado.
Para aplica¸ c˜ ao do Scan Circular, considere um mapa dividido em m regi˜ oes, com uma po- pula¸ c˜ ao total P, e um n´ umero total de casos C para algum fenˆ omeno de interesse a ser estudado.
Defina um ponto arbitr´ ario no interior de cada regi˜ ao, tal ponto ser´ a denominado centr´ oide. Seja z, um conjunto conexo qualquer de regi˜ oes no mapa em estudo, definiremos este conjunto por zona. Assim, cada poss´ıvel zona no mapa em estudo, tem uma popula¸c˜ ao e um total de casos, P(z) e C(z) respectivamente. Estas zonas (candidatos a cluster) s˜ ao definidas por c´ırculos de raio arbitr´ ario r centrados em cada um dos m centr´ oides das regi˜ oes do mapa. Variando o valor r entre 0 e algum valor R pr´ e-estabelecido, podemos definir zonas determinadas por tais janelas circulares. A zona cujos centro´ıdes s˜ ao interiores ` a janela circular em avalia¸ c˜ ao ´ e dita zona definida por tal janela circular.
Cada zona ser´ a avaliada atrav´ es do logar´ıtimo da fun¸c˜ ao de verossimilhan¸ca para a dis- tribui¸ c˜ ao dos casos do fenˆ omeno de interesse. Um modelo comumente utilizado assume que o n´ umero de casos em cada ´ area segue distribui¸ c˜ ao Poisson com taxa proporcional ` a sua popula¸c˜ ao.
Agrupamentos s˜ ao ent˜ ao identificados para diferentes raios de varredura. Contudo, apenas alguns agrupamentos podem ser considerados de importˆ ancia. Para identificar estes, para cada agrupamento, ´ e testada a hip´ otese de o mesmo ter ocorrido ao acaso. O teste utilizado para esta finalidade ´ e o da raz˜ ao da verossimilhan¸ ca. O agrupamento mais relevante ´ e aquele que apresenta maior raz˜ ao de verossimilhan¸ca.
Dado o conjunto de todas as zonas em avalia¸ c˜ ao para os diferentes raios de varredura, ora denominado conjunto Z . Busca-se determinar as zonas que podem ser considerados de maior relevˆ ancia quanto ao valor do logaritmo da fun¸c˜ ao de verossimilhan¸ca. ´ E importante salientar que as zonas mais veross´ımeis, n˜ ao s˜ ao necessariamente clusters. Uma zona ser´ a dita cluster quando o valor do logaritmo da fun¸c˜ ao de verossimilhan¸ ca for considerado significativo do ponto de vista estat´ıstico. Para tal avalia¸c˜ ao, executa-se um teste de hip´ oteses com a Hip´ otese Nula de que n˜ ao existe cluster no mapa em estudo, contra a Hip´ otese Alternativa de que existe pelo menos um cluster no mapa em estudo.
A estat´ıstica de teste Scan ser´ a definida ent˜ ao como a raz˜ ao de verossimilhan¸cas. Sob a validade da Hip´ otese Nula e assumindo o modelo Poisson, o n´ umero de casos esperados em uma poss´ıvel zona z ´ e dado por µ(z) = C P P (z) . Desta forma, temos o risco relativo na zona z dado por I(z) = C(z) µ(z) . J´ a o risco relativo fora da zona z ´ e dado por O(z) = C C − − C(z) µ(z) . Para L 0 sendo a fun¸ c˜ ao de veross´ımilhan¸ ca sob a Hip´ otese Nula e L(z) sendo a fun¸c˜ ao de veross´ımilhan¸ca sob a Hip´ otese Alternativa. O logaritmo da raz˜ ao de verossimilan¸ ca assumindo o modelo Poisson ´ e dada por:
LLR(z) =
{ C(z) log (I(z)) + (C − C(z)) log (O(z)) se I(z) > 1
0 caso contr´ ario
O logaritmo da raz˜ ao de verossimilhan¸ ca ´ e ent˜ ao maximizado no conjunto Z. O formato de defini¸c˜ ao aqui exposto para o conjunto Z ´ e o que define o m´ etodo Scan Circular. Existem outros crit´ erios para a defini¸c˜ ao do conjunto Z, como por exemplo, janelas el´ıpticas, ou at´ e mesmo uma busca exaustiva sobre todas as poss´ıveis zonas conexas no mapa em estudo. No caso de considerarmos Z como o conjunto de todas as zonas conexas, o problema se tornaria impratic´ avel para mapas com m da ordem de algumas centenas.
Para concluir o teste de hip´ oteses, a significˆ ancia estat´ıstica de uma poss´ıvel solu¸c˜ ao, obtida
atrav´ es da distribui¸c˜ ao dos casos observados, em geral, ´ e verificada atrav´ es de simula¸ c˜ oes de
Monte Carlo, dado o desconhecimento da distribui¸c˜ ao exata da estat´ıstica de teste. No procedi-
mento de Monte Carlo, casos simulados s˜ ao distribu´ıdos aleatoriamente no mapa em estudo, de
forma que cada regi˜ ao recebe, em m´ edia, um n´ umero de casos proporcional ` a sua popula¸c˜ ao. A
significˆ ancia estat´ıstica, de uma solu¸c˜ ao obtida atrav´ es da t´ ecnica Scan Circular, ´ e considerada
sem pr´ e-especifica¸c˜ ao do n´ umero de regi˜ oes e/ou da localiza¸c˜ ao do clusters mais veross´ımel. O
as solu¸c˜ oes mais veross´ımeis obtidas de cada distribui¸c˜ ao de casos simulada. Esta compara¸c˜ ao
´ e feita atrav´ es da distribui¸ c˜ ao emp´ırica para a estat´ıstica de teste constru´ıda atrav´ es dos dados da simula¸c˜ ao de Monte Carlo.
Tendo como base a metodologia da Scan Circular, o procedimento inferencial original foi discutido em [2] e uma nova t´ ecnica inferencial, mais robusta para o problema foi apresentada.
A nova t´ ecnica denominada inferˆ encia Data-driven, leva em considera¸c˜ ao o conhecimento da quantidade de regi˜ oes que comp˜ oem a solu¸c˜ ao mais veross´ımel obtida dos dados observados.
Neste caso a constru¸ c˜ ao da distribui¸c˜ ao emp´ırica ´ e condicionada ao conhecimento da quantidade de regi˜ oes na solu¸c˜ ao mais veross´ımel. Este procedimento ser´ a melhor discutido na se¸c˜ ao que trata dos aspectos metodol´ ogicos deste trabalho.
Objetivo
O procedimento de inferˆ encia Data-Driven foi apresentado e discutido atrav´ es de resultados baseados em dados simulados. Foi observado que efetivamente existe uma diferen¸ca significativa na an´ alise de resultados quanto a efetiva significˆ ancia dos clusters detectados. Por outro lado, ainda n˜ ao existem estudos envolvendo esta t´ ecnica na avalia¸c˜ ao de dados reais.
O objetivo central deste trabalho ´ e verificar as modifica¸c˜ oes de tomada de decis˜ ao que podem ocorrer dada a mudan¸ ca do procedimento inferencial quando analisando um conjunto de dados reais. Foram obtidos dados referentes a casos do Diabetes no estado de Minas Gerais para a realiza¸ c˜ ao deste estudo.
O Diabetes ´ e uma doen¸ ca crˆ onica que ocorre quando o pˆ ancreas n˜ ao produz insulina sufici- ente, ou quando o corpo n˜ ao pode utilizar eficazmente a insulina que produz. Hiperglicemia, ou a¸c´ ucar no sangue elevado, ´ e um efeito comum do Diabetes descontrolado e ao longo do tempo produz s´ erios danos a muitos dos sistemas do corpo humano, especialmente os nervos e vasos sangu´ıneos. No banco de dados de casos reais para o Diabetes no Estado de Minas Gerais, consideramos como popula¸c˜ ao de risco, homens e mulheres com mais de 45 anos de idade. Tota- lizando uma popula¸c˜ ao de risco de 7033712, entre o per´ıodo de janeiro de 2002 at´ e maio de 2011.
Para esse estudo, no banco de dados utilizado consideramos conjuntamente Diabetes do Tipo 1 e Tipo 2, totalizando neste per´ıodo, a ocorrˆ encia de 28039 casos. A popula¸c˜ ao de risco e tamb´ em os casos ocorridos est˜ ao distribu´ıdos ao longo dos munic´ıpios nos quais ocorreu a identifica¸ c˜ ao da doen¸ca. O mapa em estudo portanto ser´ a dividido por munic´ıpios, totalizando 853 regi˜ oes de estudo.
A popula¸ c˜ ao total usada nesse estudo ´ e referente ao Censo Demogr´ afico de 2010, segundo informa¸c˜ oes do Instituto Brasileiro de Geografia e Estat´ıstica, IBGE, [5]. Os conjuntos de dados referentes ` as popula¸c˜ oes de risco foram obtidos no site do Minist´ erio da Sa´ ude [4] e tamb´ em podem ser encontrados em [3].
Metodologia
A utiliza¸c˜ ao do procedimento inferencial cl´ assico para o Scan Circular compara a zona em an´ alise obtida dos dados observados com a distribui¸ c˜ ao emp´ırica obtida atrav´ es de simula¸ c˜ oes de Monte Carlo. Uma preocupa¸ c˜ ao imediata seria questionar se a zona em an´ alise obtida dos dados observados est´ a sendo comparada com uma distribui¸c˜ ao emp´ırica produzida sob a validade da hip´ otese nula, mas atrav´ es de zonas que se assemelham o m´ aximo poss´ıvel da obtida atrav´ es dos dados observados.
O estudo em [2] vem exatamente contradizer este fato, os estudos desse trabalho mostram que a grande maioria das zonas produzidas atrav´ es do procedimento de simula¸c˜ ao n˜ ao se assemelham muito ` a zona obtido dos dados observados, especiamente quando est´ a ´ e composta por um n´ umero elevado de regi˜ oes.
Em sua formula¸ c˜ ao original, o procedimento inferencial cl´ assico calcula a importˆ ancia do
cluster mais veross´ımil baseado na seguinte pergunta: “Dado que o cluster candidato encontrado tem estat´ıstica de teste igual ao valor x, qual ´ e a probabilidade de encontrar uma zona mais veross´ımil sob a hip´ otese nula com a estat´ıstica de teste maior que o valor x?”
O procedimanto inferencial Data-Driven propoe utilizar as informa¸c˜ oes sobre a quantidade de regi˜ oes da zona em an´ alise obtida dos dados observados. Neste caso, a seguinte pergunta
´ e formulada: “Dado que o cluster candidato encontrado tem estat´ıstica de teste igual ao valor x e cont´ em k regi˜ oes na sua composi¸ c˜ ao, qual ´ e a probabilidade de encontrar uma zona mais veross´ımil sob a hip´ otese nula com a estat´ıstica de teste maior que o valor x composta por exatamente k regi˜ oes?”
Dado que o Scan Circular encontrou uma zona nos dados observados com k regi˜ oes, ent˜ ao a sua significˆ ancia estat´ıstica ainda ser´ a obtida atrav´ es de simula¸c˜ oes de Monte Carlo, mas seleci- onando apenas os r´ eplicas em que as solu¸c˜ oes tˆ em exatamente k regi˜ oes. A distribui¸c˜ ao emp´ırica que considera solu¸c˜ oes de qualquer tamanho ´ e substitu´ıda ent˜ ao pela distribui¸c˜ ao emp´ırica Scan k que ´ e obtida considerando apenas as solu¸c˜ oes de tamanho exatamente igual a k.
Atrav´ es de extensos testes num´ ericos [1] foi mostrado que, sob a validade da hip´ otese nula, a distribui¸ c˜ ao emp´ırica para a Estat´ıstica Scan ´ e aproximada pela bem conhecida distribui¸c˜ ao de Gumbel
f (x) = 1
β e −
x−µβe − e
−x−µ β