Modelo de Regress˜
ao Log´ıstica para
Identifica¸
c˜
ao de Irregularidades em Liga¸
c˜
oes
de ´
Agua
Niter´oi - RJ, Brasil 18 de Dezembro 2019
Victor Matias Galv˜
ao Vit´
oria
Modelo de Regress˜
ao Log´ıstica para
Identifica¸
c˜
ao de Irregularidades em
Liga¸
c˜
oes de ´
Agua
Trabalho de Conclus˜ao de Curso
Projeto Final II apresentado para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.
Orientador: Prof. Dr. Hugo Henrique Kegler dos Santos
Niter´oi - RJ, Brasil 18 de Dezembro 2019
Victor Matias Galv˜
ao Vit´
oria
Modelo de Regress˜
ao Log´ıstica para
Identifica¸
c˜
ao de Irregularidades em Liga¸
c˜
oes
de ´
Agua
Projeto Final II de Gradua¸c˜ao sob o t´ıtulo “Modelo de Regress˜ao Log´ıstica para Identifica¸c˜ao de Irregularidades em Liga¸c˜oes de ´Agua”, defendida por Victor Matias Galv˜ao Vit´oria em 18 de Dezembro 2019, na cidade de Niter´oi, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:
Prof. Dr. Hugo Henrique Kegler dos Santos Orientador Departamento de Estat´ıstica – UFF
Prof.a Dr.a Karina Yuriko Yaginuma
Departamento de Estat´ıstica – UFF
Prof. Dr. Luis Guillermo Coca Velarde Departamento de Estat´ıstica – UFF
Bibliotecário responsável: Ana Nogueira Braga - CRB7/4776
V845m Vitória, Victor Matias Galvão
Modelo de Regressão Logística para Identificação de Irregularidades em Ligações de Água / Victor Matias Galvão Vitória ; Hugo Henrique Kegler dos Santos, orientador. Niterói, 2019.
50 f. : il.
Trabalho de Conclusão de Curso (Graduação em
Estatística)-Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2019.
1. Regressão logística. 2. Produção intelectual.I.
Santos, Hugo Henrique Kegler dos, orientador. II. Universidade Federal Fluminense. Instituto de Matemática e Estatística. III. Título.
-O desperd´ıcio de ´agua ´e um tema que vem sendo muito discutido e um dado preo-cupante para o Brasil, que viveu nos ´ultimos anos uma das piores crises h´ıdricas da sua hist´oria. V´arias pesquisas de m´etodos de combate ao desperd´ıcio de ´agua est˜ao sendo aplicados e novas t´ecnicas estudadas por diversas empresas e ´org˜aos do pa´ıs. Utilizando dados de uma empresa de saneamento b´asico, o presente trabalho tem como objetivo estudar e avaliar a associa¸c˜ao entre algumas vari´aveis caracter´ısticas de clientes e assim identificar liga¸c˜oes que possuem alguma irregularidade. O Modelo de Regress˜ao Log´ıstica possui como vari´avel resposta a chance (em escala logar´ıtmica) de um evento ocorrer, assim, ele foi utilizado para obter a chance de alguma liga¸c˜ao possuir irregularidade.
Trˆes modelos foram ajustados e o modelo escolhido possui uma taxa de acerto (acur´acia) de 92, 9%. A partir desse modelo, a empresa poder´a identificar mais facilmente as liga¸c˜oes que possuem algum tipo de irregularidade, contribuindo para a redu¸c˜ao do seu ´ındice de perda de ´agua.
Ser aluno de uma Universidade federal n˜ao ´e uma tarefa f´acil, chegar at´e o final ´e um caminho longo e cheio de obst´aculos. N˜ao conseguiria enfrentar esse ´arduo desafio sozinho.
Agrade¸co `a minha fam´ılia e minha namorada por todo o apoio durante todos esses anos de estudo, sempre me dando for¸ca e nunca desistindo de acreditar no meu potencial. Aos amigos, que passaram pelas mesmas dificuldades ao meu lado, compartilhando os bons e maus momentos e tamb´em aos que apoiaram mesmo de longe, sempre desejando o melhor e transmitindo boas vibra¸c˜oes.
A todos os professores, por todos os conselhos e ajuda durante todo o percurso, n˜ao s´o os da faculdade mas todos que passaram pela minha trajet´oria at´e aqui.
Aos colegas de trabalho que ajudaram com conselhos e ensinamentos tamb´em funda-mentais `a minha forma¸c˜ao.
Por fim, sou muito grato a todos que passaram pela minha vida em algum momento e que ajudaram de alguma forma nessa trajet´oria.
Lista de Figuras
Lista de Tabelas
1 Introdu¸c˜ao p. 10
2 Materiais e M´etodos p. 12
2.1 Base de Dados . . . p. 12 2.2 Modelos Lineares Generalizados (MLG) . . . p. 12 2.2.1 Fam´ılia exponencial . . . p. 13 2.2.1.1 Propriedades da Fam´ılia exponencial . . . p. 14 2.2.2 Fun¸c˜ao Escore . . . p. 16 2.2.3 Estima¸c˜ao dos Parˆametros do Modelo Linear Generalizado via
M´axima Verossimilhan¸ca . . . p. 17 2.2.3.1 Distribui¸c˜ao amostral para estat´ıstica escore . . . p. 21 2.2.3.2 Distribui¸c˜ao amostral para estimadores de m´axima
ve-rossimilhan¸ca . . . p. 22 2.2.3.3 Estat´ıstica de raz˜ao da verossimilhan¸ca . . . p. 23 2.2.3.4 Distribui¸c˜ao amostral para a estat´ıstica deviance . . . p. 24 2.2.4 Crit´erios para sele¸c˜ao de modelos . . . p. 26 2.2.4.1 Teste de Wald de significˆancia individual . . . p. 26 2.2.4.2 Sele¸c˜ao autom´atica de vari´aveis . . . p. 26 2.2.4.3 Teste de comparabilidade de modelos . . . p. 27
2.2.5.1 Estat´ıstica de qualidade de ajuste . . . p. 29 2.2.5.2 Res´ıduos . . . p. 32 2.2.5.3 Interpreta¸c˜ao dos coeficientes . . . p. 32 2.2.6 Avalia¸c˜ao da capacidade preditiva do modelo . . . p. 34 2.2.6.1 Ponto de corte . . . p. 35 2.2.6.2 Sensibilidade . . . p. 35 2.2.6.3 Especificidade . . . p. 36 2.2.6.4 Acur´acia do modelo . . . p. 36 2.2.6.5 Curva ROC . . . p. 36
3 An´alise dos Resultados p. 38
3.1 Modelo completo e Teste de Wald . . . p. 41 3.2 Sele¸c˜ao autom´atica . . . p. 41 3.3 Teste de comparabilidade de modelos . . . p. 41 3.4 Capacidade preditiva do modelo . . . p. 42 3.5 Interpreta¸c˜ao dos coeficientes . . . p. 44 3.6 Conclus˜ao . . . p. 45
Referˆencias p. 46
Anexo A -- Vari´aveis iniciais p. 48
1 Curva ROC te´orica. . . p. 37 2 Curva ROC do modelo. . . p. 43
1 Valores do Modelo de Regress˜ao log´ıstica quando a vari´avel independente ´
e dicotˆomica . . . p. 33 2 Tabela de contingˆencia dos resultados do ajuste do modelo e os valores
observados . . . p. 34 3 Distribui¸c˜ao das liga¸c˜oes. . . p. 40 4 Amostras. . . p. 40 5 Resultados do Teste de Wald. . . p. 41 6 Resultados do Teste de comparabilidade de modelos. . . p. 42 7 Amostra de modelagem. . . p. 42 8 Amostra de teste. . . p. 43 9 Estimativas dos coeficientes e raz˜ao de chances. . . p. 44 10 Vari´aveis iniciais . . . p. 49 11 Estimativas dos coeficientes e raz˜ao de chances da vari´avel EMPRESA. p. 50 12 Estimativas dos coeficientes e raz˜ao de chances da vari´avel ID CICLO. p. 51
1
Introdu¸
c˜
ao
O Brasil iniciou o ano de 2019 enfrentando uma grande crise h´ıdrica, considerada a pior da hist´oria do pa´ıs. Essa crise se d´a pela combina¸c˜ao de v´arios fatores como a diminui¸c˜ao do n´ıvel de chuvas, aumento do consumo e o desperd´ıcio [1]. A m´edia nacional de perdas de ´agua no Brasil alcan¸ca a taxa de 38,29% [2], levando em conta
que o Plano Nacional de Saneamento B´asico (PLANSAB) determinou como meta para
o Brasil redu¸c˜ao das perdas para 31% na distribui¸c˜ao at´e 2033 [3]. Em 2013 o Sistema Nacional de Informa¸c˜oes sobre Saneamento (SNIS) apresentou dados que mostravam as perdas na distribui¸c˜ao em 37% e as perdas financeiras totais em 39%, significando que esse percentual de recursos n˜ao entrava na receita do setor de saneamento b´asico. Essa perda foi equivalente a 6,53 bilh˜oes de m3 de ´agua n˜ao faturada pelas empresas, e perda financeira equivalente a 80% dos investimentos no setor em 2013 [4].
Segundo a ONU, a quantidade di´aria suficiente para atender as necessidades b´asicas de uma pessoa ´e de 110 litros, e de acordo com dados do Instituto Trata Brasil, no Brasil o consumo m´edio ´e de 154,1 litros por habitante/dia, 40% acima do recomendado [2]. A partir desse cen´ario, a perda de ´agua tornou-se um assunto muito discutido, principal-mente para as empresas que realizam servi¸cos de saneamento no pa´ıs, que tˆem investido na preven¸c˜ao e combate `as perdas, com controle de press˜ao da ´agua, monitoramento e agilidade no reparo de vazamentos, a¸c˜oes para a troca de hidrˆometros antigos e combate `
a fraudes, entre outros.
Perda de recurso h´ıdrico ocorre em qualquer processo de distribui¸c˜ao e abastecimento de ´agua no mundo, e pode ser classificada de duas formas: a perda real, que ´e associada a vazamentos, e a perda aparente, associada a erros de medi¸c˜ao ou fraudes [5]. Toda a¸c˜ao que tem como objetivo distorcer o real consumo de ´agua do usu´ario (como liga¸c˜oes clandestinas na rede de abastecimento, desvios de ´agua antes de chegar ao hidrˆometro, viola¸c˜oes de cortes, altera¸c˜ao no hidrˆometro) [6] ´e considerada uma fraude. Essas a¸c˜oes contribuem para o aumento do ´ındice de perda na rede p´ublica de ´agua, fazendo com que os consumidores regulares paguem a mais para compensar as perdas provenientes das
irregularidades, al´em de contaminar a rede p´ublica e o meio ambiente, trazendo tamb´em impactos negativos `a receita das empresas e aos investimentos necess´arios para o sanea-mento.
A detec¸c˜ao de fraudes e irregularidades tem se tornado um dos principais objetivos de empresas de v´arios setores econˆomicos, se tornando alvo de grande interesse no mercado. No caso das empresas do GRUPO, grupo de empresas concession´arias de saneamento b´asico, anteriormente, o combate `a fraudes e irregularidades era feito de forma manual: observava-se o consumo de cada liga¸c˜ao de ´agua, buscando algum ind´ıcio de fraude, como uma diminui¸c˜ao brusca do consumo de um mˆes para outro e enviando equipes para fis-caliza¸c˜ao no local. Na fiscaliza¸c˜ao, a equipe verifica o funcionamento do hidrˆometro e procura irregularidades nele e no seu entorno, em alguns casos, um equipamento pr´oprio, denominado geofone, que serve para escutar ru´ıdos na terra, ´e utilizado. Por´em, este equipamento n˜ao ´e muito eficaz, por conta da detec¸c˜ao de outros ru´ıdos, como de carros passando pelo local, atrapalhando a inspe¸c˜ao. Hoje j´a se utiliza outro m´etodo: atrav´es de um algoritmo, ´e gerada uma pontua¸c˜ao para cada liga¸c˜ao de ´agua, e, a partir de uma nota de corte, ´e determinado se existe ou n˜ao uma irregularidade, e assim equipes s˜ao enviadas ao local para a devida fiscaliza¸c˜ao. O resultado do novo m´etodo ´e melhor, mas ainda longe do ideal.
O objetivo principal deste trabalho ´e estudar os efeitos de caracter´ısticas de cada cliente da empresa, a fim de prever a existˆencia de irregularidades na liga¸c˜ao de ´agua deste, e os objetivos secund´arios deste trabalho s˜ao: aprimorar as t´ecnicas usadas na detec¸c˜ao de irregularidades, desenvolver um modelo de classifica¸c˜ao de liga¸c˜oes de ´agua com irregularidade ou n˜ao, e comparar os modelos ajustados atrav´es de um crit´erio de sele¸c˜ao.
2
Materiais e M´
etodos
2.1
Base de Dados
A base utilizada para o estudo cont´em dados de 539876 clientes com 17 vari´aveis pro-venientes da base de dados do GRUPO, divididos entre suas 11 empresas concession´arias e distribu´ıdas pelos estados do RJ, SP e MG. Essas vari´aveis representam dados hist´oricos de consumo dos clientes, assim como caracter´ısticas da liga¸c˜ao e da sua localiza¸c˜ao. O mˆes de referˆencia utilizado foi Maio de 2019.
2.2
Modelos Lineares Generalizados (MLG)
O Modelo de Regress˜ao Linear Simples (An´alise de Regress˜ao Linear) ´e uma t´ecnica muito utilizada para analisar a rela¸c˜ao entre duas vari´aveis, sendo uma explicativa e outra dependente (ou resposta), supondo-se que a vari´avel dependente segue uma distribui¸c˜ao normal. Essa suposi¸c˜ao limita o uso desse modelo, surgindo, ent˜ao, os Modelos Linea-res Generalizados (MLG), nos quais a normalidade n˜ao ´e mais necess´aria, sendo poss´ıvel utilizar outras distribui¸c˜oes para a resposta. Introduzidos por Nelder e Wedderburn em 1972 [7], os MLG’s s˜ao uma uni˜ao de diversas t´ecnicas estat´ısticas j´a estudadas separa-damente. Um MLG envolve uma vari´avel resposta univariada, um conjunto de vari´aveis explicativas e uma amostra aleat´oria de n observa¸c˜oes independentes, sendo que:
i) a vari´avel resposta, tamb´em chamada de vari´avel dependente ou componente aleat´orio, segue distribui¸c˜ao pertencente `a fam´ılia exponencial.
ii) as vari´aveis explicativas, tamb´em chamadas de vari´aveis independentes entram na forma de um modelo linear, constituindo o componente sistem´atico do modelo; iii) a liga¸c˜ao entre os componentes aleat´orio e sistem´atico ´e feita por meio de uma fun¸c˜ao
2.2.1
Fam´ılia exponencial
Introduzida por Fisher, a fam´ılia exponencial de distribui¸c˜oes re´une o conjunto de distribui¸c˜oes nas quais s˜ao aplicados os modelos lineares generalizados [8].
A fam´ılia exponencial de distribui¸c˜oes ´e caracterizada por uma fun¸c˜ao de probabili-dade, ou de densiprobabili-dade, expressa na forma
f (y; θ) = s(y)t(θ) exp{a(y)b(θ)}, (2.1)
podendo ser reescrita na forma
f (y; θ) = exp{a(y)b(θ) + c(θ) + d(y)}, (2.2)
sendo s(y) = exp{d(y)} e t(θ) = exp{c(θ)}, θ o parˆametro de interesse e a(·), b(·), c(·) e d(·) fun¸c˜oes reais conhecidas. Se a(y) = y, ent˜ao ´e dito que a distribui¸c˜ao est´a em sua forma canˆonica e b(θ) ´e chamado de parˆametro natural da distribui¸c˜ao.
Diversas distribui¸c˜oes conhecidas podem ser escritas na forma (2.2), sendo assim per-tencentes `a fam´ılia exponencial, tais como: binomial, Poisson, exponencial, geom´etrica, normal, gama, dentre outras. A seguir, s˜ao mostrados trˆes exemplos de como verificar se a fun¸c˜ao pertence, ou n˜ao, `a fam´ılia exponencial.
Exemplo 2.2.1. Considere a distribui¸c˜ao Normal com parˆametros µ e σ2 > 0, sendo µ o
parˆametro de interesse, e fun¸c˜ao distribui¸c˜ao de probabilidade f (x; µ, σ2) = √ 1 2πσ2 exp −(x − µ)2 2σ2 . (2.3)
A fim de colocar a fun¸c˜ao de distribui¸c˜ao na forma exponencial, tem-se: f (x; µ, σ2) = exp xµ σ2 − x2 2σ2 − µ2 2σ2 − 1 2log(2πσ 2) , (2.4)
e assim, a fun¸c˜ao distribui¸c˜ao est´a em sua forma canˆonica, com a(x) = x, a fun¸c˜ao do parˆametro natural b(µ) = σµ2 e os outros termos como c(µ) = −
µ2 2σ2 − 1 2log(2πσ 2) e d(x) = −2σx22.
Exemplo 2.2.2. Considerando a distribui¸c˜ao Poisson com parˆametro λ > 0, pode-se colocar a fun¸c˜ao de distribui¸c˜ao na forma exponencial:
f (x; λ) = e −λ λx x! = exp log e −λ λx x!
= exp{−λ + x log(λ) − log(x!)}
= exp{x log(λ) − λ − log(x!)}. (2.5)
Assim, a(x) = x, o que indica a forma canˆonica, a fun¸c˜ao do parˆametro natural b(λ) = log(λ) e os outros termos como c(λ) = −λ e d(x) = − log(x!).
Exemplo 2.2.3. Considere a distribui¸c˜ao Binomial com parˆametros n, n´umero de ensaios independentes e 0 < p < 1, com fun¸c˜ao de probabilidade
f (x; n, p) =n x px(1 − p)n−x= exp logn p px(1 − p)n−x = exp logn x
+ x log(p) + n log(1 − p) − x log(1 − p)
= exp
x(log(p) − log(1 − p)) + n log(1 − p) + logn x
. (2.6)
Observe que a fun¸c˜ao est´a na forma canˆonica, com a(x) = x parˆametro natural, b(p) = log(p)−log(1−p) = log1−pp e os outros termos como c(p) = n log(1−p) e d(x) = log nx.
2.2.1.1 Propriedades da Fam´ılia exponencial
O valor esperado e a variˆancia de a(y) podem ser obtidos a partir de resultados v´alidos nas opera¸c˜oes para qualquer fun¸c˜ao densidade de probabilidade na qual a ordem de integra¸c˜ao e deriva¸c˜ao possa ser trocada, temos
Z
Se a vari´avel aleat´oria Y for discreta, a integral ´e substitu´ıda por um somat´orio. Derivando os dois lados da igualdade em 2.7 em rela¸c˜ao a θ, obt´em-se
d dθ
Z
f (y; θ)dy = d
dθ1 = 0.
Alterando a ordem de deriva¸c˜ao e integra¸c˜ao no primeiro termo, obt´em-se
Z d
dθf (y; θ)dy = 0. (2.8)
Derivando a equa¸c˜ao 2.7 duas vezes em rela¸c˜ao a θ e alterando a ordem de deriva¸c˜ao e integra¸c˜ao novamente, a seguinte equa¸c˜ao ´e obtida
Z d2 dθ2f (y; θ)dy = 0. (2.9) Derivando a equa¸c˜ao 2.2, d dθf (y; θ) = [a(y)b 0(θ) + c0(θ)]f (y; θ). (2.10)
e aplicando o resultado em 2.8, tem-se Z
[a(y)b0(θ) + c0(θ)]f (y; θ)dy = 0. (2.11)
Pela defini¸c˜ao do valor esperado, sabe-se queR a(y)f (y; θ)dy = E[a(y)], e R c0(θ)f (y; θ)dy = c0(θ) por 2.7. Ent˜ao,
Z
a(y)b0(θ)f (y; θ) + c0(θ)f (y; θ)dy = 0
b0(θ)E[a(y)] + c0(θ) = 0
E[a(y)] = −c
0(θ)
b0(θ). (2.12)
De forma similar, pode-se obter Var[a(y)]: d2
dθ2f (y; θ) = [a(y)b 00
(θ) + c00(θ)]f (y; θ) + [a(y)b0(θ) + c0(θ)]2f (y; θ).
Utilizando, 2.12, reescreve-se [a(y)b0(θ) + c0(θ)]2f (y; θ) como
e, pela equa¸c˜ao 2.9, obtem-se Z d2 dθ2f (y; θ) = b 00 (θ)E[a(y)] + c00(θ) + [b0(θ)]2var[a(y)] = 0. (2.13)
Uma vez que R {a(y) − E[a(y)]}2f (y; θ) = var[a(y)] por defini¸c˜ao, aplica-se 2.12 em
2.13, obtendo-se
var[a(y)] = b
00(θ)c0(θ) − c00(θ)b0(θ)
[b0(θ)]3 . (2.14)
2.2.2
Fun¸
c˜
ao Escore
A fun¸c˜ao escore ´e utilizada na inferˆencia sobre os valores dos parˆametros em modelos lineares generalizados [9], e ´e definida como:
U (θ) = d
dθ`(θ; y), (2.15)
sendo `(θ; y) o logaritmo da fun¸c˜ao de verossimilhan¸ca correspondente a uma ´unica ob-serva¸c˜ao no modelo. Assim, aplicando a forma 2.2, `(θ; y) ´e dado por:
`(θ; y) = a(y)b(θ) + c(θ) + d(y). (2.16)
Aplicando 2.16 em 2.15, tem-se
U (θ) = a(y)b0(θ) + c0(θ). (2.17)
A fun¸c˜ao U (θ), denotada por U , tamb´em chamada de estat´ıstica escore, pode ser vista como uma vari´avel aleat´oria, com valor esperado
E(U ) = b0(θ)E[a(y)] + c0(θ),
e aplicando 2.12, obt´em-se
E(U ) = b0(θ) −c 0(θ) b0(θ) + c0(θ) = 0. (2.18)
Al´em disso, variˆancia de U, denominada informa¸c˜ao e denotada como τ , ´e dada por τ = var(U ) = [b0(θ)]2var[a(y)],
o que, como consequˆencia de 2.14, resulta em: var(U ) = b 00(θ)c0(θ) b0(θ) − c 00 (θ). (2.19)
Uma consequˆencia interessante ´e que
var(U ) = E(U )2 = −E(U0)
pois, dado o resultado geral
var(X) = E(X2) − [E(X)]2,
e como visto em 2.18, E(U ) = 0, ent˜ao temos a primeira igualdade. A segunda ´e encon-trada a partir da derivada de U em rela¸c˜ao a θ,
U0 = dU
dθ = a(y)b
00
(θ) + c00(θ).
Desta forma, a esperan¸ca de U ´e calculada da forma E(U0) = b00(θ)E[a(y)] + c00(θ) = b00(θ) −c 0(θ) b0(θ) + c00(θ) = −var(U ) = −τ, substituindo 2.12 e utilizando 2.19.
2.2.3
Estima¸
c˜
ao dos Parˆ
ametros do Modelo Linear
Generali-zado via M´
axima Verossimilhan¸
ca
O estimador de m´axima verossimilhan¸ca, ˆθ, ´e a solu¸c˜ao de U (θ) = 0 que ´e obtido a partir do m´etodo de aproxima¸c˜ao de Newton-Raphson. A estima¸c˜ao das ra´ızes de uma fun¸c˜ao ´e descrita a seguir.
Deseja-se obter o valor de x na fun¸c˜ao t que corta o eixo x, onde t(x) = 0. Escolhendo-se uma aproxima¸c˜ao inicial x(0), obt´em-se aproxima¸c˜oes resultantes x(1), x(2), x(3), ..., da
seguinte forma: Dada a (m − 1)-´esima aproxima¸c˜ao de x, a inclina¸c˜ao de t neste ponto ´e dt dx x=x(m−1) = t0(x(m−1)) = t(x (m)) − t(x(m−1)) x(m)− x(m−1) , (2.20)
sendo a distˆancia x(m)− x(m−1) pequena. Se x(m) ´e a solu¸c˜ao desejada, ent˜ao t(x(m)) = 0,
e assim, pode-se construir este ponto reescrevendo 2.20 como x(m)= x(m−1)− t(x
(m−1))
t0(x(m−1)). (2.21)
Esta ´e a f´ormula de Newton-Raphson para resolver t(x) = 0. Dando uma aproxima¸c˜ao inicial x(0) seguida de aproxima¸c˜oes resultantes de 2.21 at´e o processo de itera¸c˜oes
conver-gir. Para a estima¸c˜ao de m´axima verossimilhan¸ca usando a fun¸c˜ao escore 2.15, a equa¸c˜ao de estima¸c˜ao ´e equivalente a
θ(m) = θ(m−1)+ U
(m−1)
τ(m−1). (2.22)
Sejam Y1, . . . , Ynvari´aveis aleat´orias independentes que satisfa¸cam as propriedades do
modelo linear generalizado. Para estimar o vetor de parˆametros β relacionados com Yi’s
atrav´es da E(Yi) = µi e g(µi) = x>i β e para cada Yi a fun¸c˜ao log-verossimilhan¸ca ´e
li = yib(θi) + c(θi) + d(yi), (2.23)
onde as fun¸c˜oes b, c e d s˜ao definidas em 2.2. Al´em disso E(Yi) = µi = − c0(θi) b0(θ i) , (2.24) var(Yi) = [b00(θi)c0(θi) − c00(θi)b0(θi)] [b0(θ i)]3 , (2.25) e g(µi) = x>i β = ηi, (2.26)
sendo xi o vetor com elementos xij, j = 1, . . . , p.
A fun¸c˜ao log-verossimilhan¸ca para todo Yi’s ´e
l = N X i=1 li = N X i=1 yib(θi) + N X i=1 c(θi) + N X i=1 d(yi).
utili-zando a regra da cadeia: dl dβj = Uj = N X i=1 dli dβj = N X i=1 dli dθi .dθi dµi .dµi dβi . (2.27)
Para encontrar o resultado final de 2.27, considera-se cada termo de forma separada. O primeiro termo ´e encontrado derivando 2.23, isto ´e,
dli
dθi
= yib0(θi) + c0(θi) = b0(θi)(yi− µi),
e para encontrar o segundo termo, observa-se que dθi dµi = 1 dµi dθi , al´em do resultado de 2.25. Assim,
dµi dθi = −c 00(θ i) b0(θ i) +c 0(θ i)b00(θi) [b0(θ)]2 = b0(θi)var(Yi),
O ´ultimo termo ´e encontrado via2.26, ou seja, dµi dβj = dµi dηi .dηi dβj = dµi dηi xij.
Aplicando-se os trˆes resultados encontrados acima, tem-se que o escore Uj ´e
Uj = N X i=1 (yi− µi) var(Yi) xij dµi dηi . (2.28)
A matriz de variˆancia-covariˆancia de Uj’s tem termos τjk = E[UjUk], formando a
matriz de informa¸c˜ao τ . Assim, de 2.28, tem-se
τjk = E ( N X i=1 (Yi− µi) var(Yi) xij dµi dηi N X l=1 (Yl− µl) var(Yl) xlk dµl dηl ) = N X i=1 E[(Yi− µi)2]xijxik [var(Yi)]2 dµi dηi 2 , (2.29)
E[(Yi− µi)2] = var(Yi), nota-se que 2.29 pode ser simplificada para τjk = N X i=1 xijxik var(Yi) dµi dηi 2 . (2.30)
A equa¸c˜ao de estima¸c˜ao 2.22 para o m´etodo de escore generalizado para
b(m) = b(m−1)+ [τ(m−1)]−1U(m−1), (2.31)
sendo b(m) o vetor de estimativas dos parˆametros β1, . . . , βp na m-´esima itera¸c˜ao. Na
equa¸c˜ao 2.31, [τ(m−1)]−1 ´e a inversa da matriz de informa¸c˜ao com elementos τjk dado
por 2.30 e U(m−1) ´e o vetor de elementos dados por 2.28, todos avaliados em b(m−1). Multiplicando-se a equa¸c˜ao 2.31 por τ(m−1), obt´em-se
τ(m−1)b(m) = τ(m−1)b(m−1)+ U(m−1). (2.32)
A partir de 2.30, τ pode ser escrita como τ = X>W X,
sendo W a diagonal N × N da matriz com elementos wii= 1 var(Yi) dµi dηi 2 . (2.33)
A express˜ao 2.32 ´e o vetor com elementos
p X k=1 N X i=1 xijxik var(Yi) dµi dηi 2 b(m−1)k + N X i=1 (yi − µi)xij var(Yi) dµi dηi ,
avaliado em b(m−1), vindo das equa¸c˜oes 2.30 e 2.28. Portanto a equa¸c˜ao 2.32 pode ser escrita como
X>W z,
sendo os elementos de z dados por
zi = p X k=1 xikb (m−1) k + (yi− µi) dηi dµi , (2.34)
com µi e dµdηii avaliados em b(m−1). Consequentemente, a equa¸c˜ao 2.32, pode ser escrita
como
Esta ´e a mesma forma das equa¸c˜oes normal para modelos lineares obtidos por m´ınimos quadrados, exceto por esta ter que ser resolvida iterativamente, pois em geral, z e W dependem de b. Consequentemente para modelos lineares generalizados, estimadores de m´axima verossimilhan¸ca s˜ao obtidos por uma itera¸c˜ao por m´ınimos quadrados, apresentado por A. Charnes, E. L. Frome e P. L. Yu et. al [10].
A maior parte dos pacotes estat´ısticos que incluem processos de ajuste de modelos lineares generalizados tem um eficiente algoritmo baseado em 2.35. Eles come¸cam usando aproxima¸c˜oes iniciais b(0) para avaliar z e W , ent˜ao 2.35 ´e resolvida e b(1) ´e fornecida, a qual ´e utilizada para obter melhores aproxima¸c˜oes para z e W , e seguindo assim at´e a convergˆencia adequada ser alcan¸cada. Quando a diferen¸ca entre as consecutivas apro-xima¸c˜oes b(m−1) e b(m) ´e suficientemente pequena, b(m) ´e considerada como a estimativa de m´axima verosimilhan¸ca.
Neste trabalho, o ajuste dos modelos ´e feito utilizando o software R [11].
2.2.3.1 Distribui¸c˜ao amostral para estat´ıstica escore
Supondo Y1, . . . , YN vari´aveis aleat´orias independentes de um modelo linear
generali-zado com parˆametros β onde E(Yi) = µi e g(µi) = x>β = ηi. Vindo de 2.29, a estat´ıstica
escore ´e Uj = dl dβj = N X i=1 (Yi− µi) var(Yi) xij dµi dηi para j = 1, . . . , p.
Como E(Yi) = µi para todo i.
E(U ) = 0 para j = 1, . . . , p. (2.36)
A matriz de variˆancia e covariˆancia das estat´ısticas escore ´e a matriz informa¸c˜ao τ com elementos
τjk = E[UjUk],
dada por 2.30.
Se existe apenas um parˆametro β, a estat´ıstica escore tem distribui¸c˜ao amostral assint´otica √U τ ∼ N (0, 1), ou de forma equivalente U2 τ ∼ χ 2(1), pois E(U ) = 0 e var(U ) = τ .
Se existir um vetor de parˆametros β = β1 .. . βp
ent˜ao o vetor escore U = U1 .. . Up tem
a distribui¸c˜ao Normal multivariada U ∼ N (0, τ ), pelo menos assintoticamente, e assim, para grandes amostras
U>τ−1U ∼ χ2(p) (2.37)
Exemplo 2.2.4. Estat´ıstica escore para distribui¸c˜ao Binomial. Se Y ∼ Binomial(n, π) a fun¸c˜ao log-verossimilhan¸ca ´e
l(π; y) = y log(π) + (n − y) log(1 − π) + logn y
ent˜ao a estat´ıstica escore ´e
U = dl dπ = Y π − n − Y 1 − π = Y − nπ π(1 − π).
Como E(Y ) = nπ, ent˜ao, tem-se que E(U ) = 0, e al´em disso, var(Y ) = nπ(1 − π), implicando em
τ = var(U ) = 1
π2(1 − π)2var(Y ) =
n π(1 − π), e, como consequˆencia, tem-se aproximadamente
U √
τ =
Y − nπ
pnπ(1 − π) ∼ N (0, 1).
Esta ´e a aproxima¸c˜ao para distribui¸c˜ao Normal usada para encontrar os intervalos de confian¸ca e testar hip´oteses para π.
2.2.3.2 Distribui¸c˜ao amostral para estimadores de m´axima verossimilhan¸ca A partir da aproxima¸c˜ao por S´erie de Taylor, tem-se que para a fun¸c˜ao escore de parˆametro ´unico β, os dois primeiros termos da aproxima¸c˜ao pr´oxima da estimativa de b ´e dada por
U (β) = U (b) + (β − b)U0(b).
Se U0 ´e aproximado por E(U0) = −τ , obt´em-se
U (β) = U (b) − (β − b)τ (b). A express˜ao correspondente para o vetor de parˆametros β ´e
U (β) = U (b) − τ (b)(β − b), (2.38)
podendo ser utilizada para obter a distribui¸c˜ao amostral do estimador de m´axima veros-similhan¸ca b = ˆβ. Por defini¸c˜ao, b ´e o estimador que maximiza l(b), e assim U (b) = 0.
Ent˜ao,
U (β) = −τ (b)(β − b), ou de forma equivalente,
(b − β) = τ−1U ,
sendo τ n˜ao singular.
Se τ ´e considerada como constante, ent˜ao E(b − β) = 0, pois E(U ) a partir da equa¸c˜ao 2.36. Ent˜ao, assintoticamente, E(b) = β, assim, b ´e estimador consistente para β e a matriz de variˆancia-covariˆancia para b ´e
E[(b − β)(b − β)>] = τ−1E(U U>)τ = τ>, (2.39)
pois τ = E(U U>) e (τ−1)> = τ−1, como τ ´e sim´etrica. A distribui¸c˜ao amostral as-sint´otica para b ´e
(b − β)>τ (b)(b − β) ∼ χ2(p). (2.40)
Esta ´e a Estat´ıstica de Wald. Para o caso de parˆametro ´unico, a forma mais utilizada ´e
b ∼ N (β, τ−1). (2.41)
Se as vari´aveis resposta no modelo linear generalizado forem normalmente distribu´ıdas, ent˜ao 2.40 e 2.41 ser˜ao resultados exatos.
2.2.3.3 Estat´ıstica de raz˜ao da verossimilhan¸ca
Uma forma de avaliar se o modelo ´e adequado ´e a compara¸c˜ao dele com um modelo generalizado com um n´umero m´aximo de parˆametros que podem ser estimados, chamado de modelo saturado. Este ´e um modelo linear generalizado com a mesma distribui¸c˜ao e fun¸c˜ao de liga¸c˜ao do modelo de interesse.
Se existem N observa¸c˜oes, Yi, i = 1, . . . , N , todas com valores potencialmente
di-ferentes para o componente linear x>i β, ent˜ao um modelo saturado ´e definido com N parˆametros, sendo classificado como um modelo m´aximo ou cheio.
Se algumas das observa¸c˜oes tiverem o mesmo componente linear ou covari´avel padr˜ao, ou seja, elas correspondem `a mesma combina¸c˜ao de n´ıveis de fatores e tˆem os mesmos valores de qualquer vari´avel explicativa cont´ınua, elas s˜ao chamadas r´eplicas. Neste caso, o n´umero m´aximo de parˆametros que pode ser estimado para o modelo saturado ´e igual ao n´umero de componentes lineares potencialmente diferentes, que pode ser menor que
N .
Em geral, o n´umero m´aximo de parˆametros que pode ser estimado ´e denotado por m. O vetor de parˆametros para o modelo saturado ´e denotado por βmax e seu estima-dor de m´axima verossimilhan¸ca por bmax. A fun¸c˜ao de verossimilhan¸ca para o modelo saturado avaliado em bmax, L(bmax; y), ser´a maior do que qualquer outra fun¸c˜ao de verossimilhan¸ca para essas observa¸c˜oes, com a mesma distribui¸c˜ao e fun¸c˜ao de liga¸c˜ao assumidas, pois isso garante a mais completa descri¸c˜ao dos dados. Com o valor m´aximo da fun¸c˜ao de verossimilhan¸ca para o modelo de interesse denotado por L(b;y), a raz˜ao
de verossimilhan¸ca
λ = L(bmax; y)
L(b;y)
proporciona a ferramenta de avalia¸c˜ao do ajuste do modelo. O logaritmo da raz˜ao de verossimilhan¸ca ´e a diferen¸ca entre a fun¸c˜ao de log-verossimilhan¸ca usada na pr´atica como:
log λ = l(bmax; y) − l(b; y)
Grandes valores de log λ sugerem que o modelo de interesse ´e uma descri¸c˜ao pobre dos dados relacionados com o modelo saturado. Para determinar a regi˜ao cr´ıtica para o log λ, precisa-se de uma distribui¸c˜ao aleat´oria.
2.2.3.4 Distribui¸c˜ao amostral para a estat´ıstica deviance
A estat´ıstica deviance, tamb´em chamada de estat´ıstica log-verossimilhan¸ca (raz˜ao),
D = 2[l(bmax; y) − l(b, y)].
A partir de uma aproxima¸c˜ao da fun¸c˜ao de log-verossimilhan¸ca para um vetor de parˆametros β, que pode ser encontrada a partir da aproxima¸c˜ao por S´erie de Taylor, se b for o esti-mador de m´axima verossimilhan¸ca β (ent˜ao U (b) = 0), aproximadamente
l(β) − l(b) = −1 2(β − b) > τ (b)(β − b). Ent˜ao a estat´ıstica 2[l(b; y) − l(β; y)] = (β − b)>τ (b)(β − b),
A distribui¸c˜ao aleat´oria vinda desse resultado pode ser derivada: D = 2[l(bmax; y) − l(b, y)]
= 2[l(bmax; y) − l(βmax, y)]
−2[l(b; y) − l(β, y)] + 2[l(βmax; y) − l(β, y)]. (2.42)
O primeiro termo tem distribui¸c˜ao χ2(m), onde m ´e o n´umero de parˆametros do modelo
saturado. O segundo termo tem distribui¸c˜ao χ2(p) onde p ´e o n´umero de parˆametros do
modelo de interesse. O terceiro termo, v = 2[l(βmax; y) − l(β, y)] ´e a constante positiva que estar´a pr´oxima de zero se o modelo de interesse representar t˜ao bem os dados quanto o modelo saturado. Consequentemente a distribui¸c˜ao amostral da estat´ıstica deviance ser´a aproximadamente,
D ∼ χ2(m − p, v),
sendo v o parˆametro n˜ao centralizado. A estat´ıstica deviance forma a base da maior parte dos testes de hip´oteses para modelos lineares generalizados.
Se a vari´avel resposta Yi seguir uma distribui¸c˜ao Binomial, D pode ser calculado e
usado diretamente como avalia¸c˜ao de ajuste do modelo.
Exemplo 2.2.5. Estat´ıstica deviance para um modelo Binomial: Se as vari´aveis respostas Yi, . . . , YN s˜ao independentes e Yi ∼ Binomial(ni, πi), ent˜ao a fun¸c˜ao log-verossimilhan¸ca
´e l(β, y) = N X i=1
yilog πi− yilog(1 − πi) + nilog(1 − πi) + log
ni
yi
.
Para o modelo saturado, os π’s s˜ao todos diferentes ent˜ao β = [π1, . . . , πN]>. Os
esti-madores de m´axima verossimilhan¸ca s˜ao ˆπi = nyii ent˜ao o valor m´aximo da fun¸c˜ao
log-verossimilhan¸ca ´e l(bmax; y) =X yilog yi ni − yilog ni− yi ni + nilog ni− yi ni + logni yi . Para qualquer outro modelo com p < N parˆametros, os estimadores de m´axima veros-similhan¸ca ser˜ao denotados por ˆπi e o valores ajustados por ˆyi = niπˆi. Ent˜ao a fun¸c˜ao
log-verossimilhan¸ca avaliada com esses valores ´e
l(b; y) =X yilog ˆyi ni − yilog ni− ˆyi ni + nilog ni− ˆyi ni + logni yi .
Assim, a estat´ıstica deviance ´e D = 2[l(bmax; y) − l(b, y)] = 2 N X i=1 yilog yi ˆ yi + (ni− yi) log ni− yi ni− ˆyi . (2.43)
2.2.4
Crit´
erios para sele¸
c˜
ao de modelos
2.2.4.1 Teste de Wald de significˆancia individual
O teste de Wald ´e um teste de hip´oteses utilizado para verificar se a vari´avel ´e signifi-cativa para o modelo. A hip´otese nula ´e o parˆametro βj n˜ao tem efeito significativo para
o modelo, assim, a j-´esima vari´avel n˜ao ´e significativa para o modelo, e a alternativa ´e ser diferente de zero, indicando que o parˆametro βj tem efeito significativo para o modelo,
assim, a j-´esima vari´avel ´e significativa para o modelo. Ou seja,
(
H0 : βj = 0
H1 : βj 6= 0
A estat´ıstica de teste utilizada ´e W = ˆ β2 j ˆ V AR( ˆβj) ∼ χ2 1. (2.44)
Se o p-valor do teste for menor que o n´ıvel de significˆancia determinado para o trabalho (α = 0, 05), ent˜ao H0 ser´a rejeitado, ou seja, a vari´avel ´e significativa para o modelo, caso
contr´ario, H0 n˜ao ser´a rejeitada e a vari´avel ser´a desconsiderada do modelo por n˜ao ter
efeito estatisticamente significante.
2.2.4.2 Sele¸c˜ao autom´atica de vari´aveis
O software R possui um pacote para sele¸c˜ao autom´atica de vari´aveis e retornando o melhor ajuste de modelo, glmulti. V´arios modelos s˜ao ajustados e testados, utilizando o m´etodo Stepwise para sele¸c˜ao das vari´aveis e crit´erios de informa¸c˜ao de Akaike (AIC) para compara¸c˜ao dos modelos. Ler o artigo [?] para mais informa¸c˜oes.
2.2.4.3 Teste de comparabilidade de modelos
Ap´os realizar-se o ajuste dos modelos, realiza-se um teste de hip´oteses para a com-para¸c˜ao de dois a dois. Para esta compara¸c˜ao, os dois modelos devem ser aninhados ou hier´arquicos, isto ´e, com a mesma distribui¸c˜ao de probabilidade, a mesma fun¸c˜ao de liga¸c˜ao e, al´em disso, com o componente linear do modelo mais simples, M0, sendo um
caso especial do componente linear do modelo mais geral, M1.
Considere a hip´otese nula
H0 : β = β0 = β1 .. . βq ,
correspondendo ao modelo reduzido M0, e a hip´otese alternativa
H1 : β = β1 = β1 .. . βp ,
correspondendo ao modelo completo M1, com q < p < N . H0 pode ser testada contra H1
usando a diferen¸ca da estat´ıstica deviance
∆D = D0− D1 = 2[l(bmax; y) − l(b0; y)] − 2[l(bmax; y) − l(b1; y)]
= 2[l(b1; y) − l(b0; y)].
Se ambos os modelos descrevem bem os dados, ent˜ao D0 ∼ χ2(N − q) e D1 ∼ χ2(N − p)
de modo que ∆D ∼ χ2(p − q), assegurando que a condi¸c˜ao de independˆencia aconte¸ca.
Se o valor de ∆D for consistente com a distribui¸c˜ao χ2(p − q), o modelo escolhido ser´a o
M0 correspondendo a H0, pois ´e o mais simples.
Se o valor de ∆D estiver na regi˜ao cr´ıtica, ou seja, maior que (100 × α)% da cauda superior da distribui¸c˜ao χ2(p − q) ent˜ao H0 seria rejeitado em favor de H1 pelo fato do
modelo M1 ser significantemente melhor para descrever os dados (apesar deste tamb´em
poder n˜ao representar bem os dados).
Assim como no Teste de Wald, o p-valor tamb´em pode ser utilizado para chegar a decis˜ao de rejeitar ou n˜ao a hip´otese nula (H0).
2.2.5
Modelo de Regress˜
ao Log´ıstica
O modelo de regress˜ao log´ıstica (modelo log´ıstico ou logit ) ´e recomendado quando a vari´avel dependente ´e dicotˆomica (ou bin´aria), com as vari´aveis explicativas podendo ser categ´oricas ou n˜ao. Esse modelo ´e uma ferramenta que permite estimar a probabilidade de determinado evento acontecer a partir do conjunto de vari´aveis explicativas. Como a vari´avel dependente resulta de uma probabilidade π, assumindo os valores 0 ou 1 (com 0 representando o fracasso e 1 o sucesso), ent˜ao sua distribui¸c˜ao ´e de Bernoulli, e a sua fun¸c˜ao de probabilidade ´e:
f (y; π) = πy(1 − π)1−y = exp{log(πy(1 − π)1−y)}
= exp{y log(π) + log(1 − π) − y log(1 − π)}
= exp{y(log(π) − log(1 − π)) + log(1 − π)}
= exp y log π 1 − π + log(1 − π) , (2.45)
e logo ´e da fam´ılia exponencial. Note que a fun¸c˜ao est´a em sua forma canˆonica, pois a(y) = y, e a fun¸c˜ao do parˆametro natural b(π) = log 1−ππ com os outros termos dados por c(π) = log(1 − π) e d(y) = 0.
O valor esperado da vari´avel dependente Y ´e
E(Y ) = 1 X y=0 yπy(1 − π)1−y = 0π0(1 − π)1−0+ 1π1(1 − π)1−1= π.
Observando-se a equa¸c˜ao 2.45, tem-se a partir da fun¸c˜ao do parˆametro natural que a fun¸c˜ao de liga¸c˜ao do modelo ´e
g(π) = log π 1 − π = x>β, (2.46)
o que tem como consequˆencia a probabilidade π ser fun¸c˜ao de x>β, sendo encontrada por: log π 1 − π = x>β π 1 − π = exp{x > β} π = exp{x>β} − π exp{x>β} π(1 + exp{x>β}) = exp{x>β} π = exp{x >β} 1 + exp{x>β}. (2.47)
O modelo linear log´ıstico simples logh πi
1−πi
i
= β1+ β2xi ´e um caso especial do modelo
de regress˜ao log´ıstica geral
logit πi = log πi 1 − πi = x>i β,
onde xi ´e o vetor das medidas correspondentes `as covari´aveis e vari´aveis dummy
cor-respondentes aos n´ıveis de fator e β ´e o vetor de parˆametros. Este modelo ´e usado para analisar dados com vari´aveis respostas bin´arias e muitas vari´aveis explicativas, fornecendo uma t´ecnica poderosa an´aloga a regress˜ao m´ultipla e ANOVA para respostas cont´ınuas.
Estimadores de m´axima verossimilhan¸ca de parˆametros β, e consequentemente de probabilidades πi = g(x>i β), s˜ao obtidos maximizando a fun¸c˜ao de log-verossimilhan¸ca
l(π; y) =
N
X
i=1
yilog πi+ (ni− yi) log(1 − πi) + log
ni
yi
. (2.48)
2.2.5.1 Estat´ıstica de qualidade de ajuste
Ao inv´es de usar a estima¸c˜ao de m´axima verossimilhan¸ca, pode-se usar a estima¸c˜ao dos parˆametros minimizando a soma ponderada dos quadrados
Sw = N X i=1 (yi− niπi)2 niπi(1 − πi) ,
ent˜ao E(Yi) = niπi e var(Yi) = niπi(1 − πi). Equivalente a minimizar a estat´ıstica
Chi-Quadrada de Pearson
X2 =X(o − e)
2
e ,
com o representando a frequˆencia observada na Tabela ??, e representando a frequˆencia esperada e o somat´orio sobre todas as 2 × N c´elulas da tabela. Sua demonstra¸c˜ao
X2 = N X i=1 (yi− niπi)2 niπi + N X i=1 [(n − i − yi) − ni(1 − πi)]2 ni(1 − πi) = N X i=1 (yi− niπi)2 niπi(1 − πi) (1 − πi+ πi) = Sw.
Quando X2 ´e avaliado na frequˆencia estimada, a estat´ıstica ´e
X2 = N X i=1 (yi− niˆπi)2 niπˆi(1 − ˆπi) , (2.49)
esta ´e assintoticamente equivalente a estat´ıstica deviance em 2.43,
D = 2 N X i=1 yilog yi niπˆi + (ni− yi) log ni− yi ni− niπˆi . (2.50)
A prova da rela¸c˜ao entre X2 e D usa a expans˜ao da s´erie de Taylor do s log s
t onde s = t, ou seja s log s t = (s − t) + 1 2 (s − t)2 t + . . . .
Onde na primeira parcela da soma dentro do somat´orio em 2.50, tem-se yi = s e
niπˆi = t, j´a na segunda parcela, ni − yi = s e ni− niˆπi = t. Consequentemente D = 2 N X i=1 {(yi− niπˆi) + 1 2 (yi− niπˆi)2 niπˆi + [(ni− yi) − (ni− niπˆi)] +1 2 [(ni− yi) − (ni− niπˆi)]2 ni− niπˆi + . . .} ∼ = N X i=1 (yi − niπˆi)2 niπˆi(1 − ˆπi) = X2.
A distribui¸c˜ao assint´otica de D, sob a hip´otese de que o modelo ´e correto, ´e D ∼ χ2(N −p),
assim, aproximadamente X2 ∼ χ2(N − p). A escolha entre D e X2 depende da adequa¸c˜ao
amplamente melhor que D, pois esta ´e indevidamente influenciada por frequˆencias bem menores [12].
Em particular, se cada observa¸c˜ao tiver covari´avel padr˜ao diferente, ent˜ao yi ser´a
zero ou um, ent˜ao D e X2 n˜ao v˜ao fornecer uma medida de qualidade ´util, o que pode
acontecer se a vari´avel explicativa for cont´ınua, por exemplo. Para este caso, a apro-xima¸c˜ao Hosmer e Lemeshow (1980) [13] ´e a mais utilizada. Nesta aproxima¸c˜ao, a ideia ´e agrupar as observa¸c˜oes em categorias baseadas nas suas probabilidades previstas. Em torno de 10 grupos s˜ao usados com n´umeros de observa¸c˜oes aproximadamente iguais em cada grupo. A quantidade de sucessos e fracassos observados em cada um dos g grupos s˜ao resumidos como apresentado na Tabela ??. Assim, a estat´ıstica Chi-Quadrado de Pearson para uma tabela g × 2 contingˆencia calculada e usada como medida de ajuste. A estat´ıstica Hosmer-Lemeshow ´e denotada como X2
HL. A distribui¸c˜ao amostral de
X2
HL ´e encontrada a partir de simula¸c˜ao para ser aproximada de χ2(g − 2).
A fun¸c˜ao de log-verossimilhan¸ca para modelos ajustados as vezes ´e comparada com a fun¸c˜ao de log-verossimilhan¸ca para modelos m´ınimos, em que todos os valores πi s˜ao
iguais (contrastando com o modelo saturado que ´e utilizado para defini¸c˜ao da estat´ıstica deviance). Sob o modelo m´ınimo,
˜
π = P yi P ni
.
Tomando ˆπi para denotar a probabilidade estimada para Yi sob o modelo de interesse
(ent˜ao o valor ajustado ´e ˆyi = niπˆi). A estat´ıstica ´e definida por
C = 2[l(ˆπ; y) − l(˜π; y)],
com a fun¸c˜ao log-verossimilhan¸ca l dada por 2.48. Consequentemente
C = 2X yilog ˆ yi n˜πi + (ni− yi) log ni− ˆyi ni− niπ˜i .
A sua distribui¸c˜ao amostral aproximada ´e χ2(p − 1) se todos os p parˆametros, exceto o
termo de intercepto βi, forem zero. C ´e tamb´em chamado de estat´ıstica Chi-Quadrado
de raz˜ao de verossimilhan¸ca.
Por analogia ao R2 para regress˜ao linear m´ultipla, outra estat´ıstica tamb´em utilizada,
o pseudo R2, ou R2 de Mc Fadden, ´e representado da seguinte forma
R2M F = 1 − l(ˆπ; y) l(˜π; y) → R 2 M F = l(˜π; y) − l(ˆπ; y) l(˜π; y) , 0 ≤ R 2 M F < 1
o qual representa a melhoria proporcional na fun¸c˜ao de log-verossimilhan¸ca devido aos termos do modelo de interesse, comparado ao modelo m´ınimo.
2.2.5.2 Res´ıduos
Para regress˜ao log´ıstica existem duas formas principais de res´ıduos correspondendo `
a medida de qualidade de ajuste D e X2. Se existir m covari´aveis padr˜oes diferentes,
ent˜ao m res´ıduos podem ser calculados. O n´umero de sucessos, denotado por Yk, nk o
n´umero de tentativas e ˆπk a probabilidade estimada de sucessos para a k-´esima covari´avel
padronizada.
Os res´ıduos de Pearson representados como Xk = (yk− nkπˆk) pnkπˆk(1 − ˆπk) , k = 1, . . . , m. (2.51) De 2.49, Pm k=1X 2
k = X2, a estat´ıstica de qualidade de ajuste Pearson chi-quadrado.
Res´ıduos da estat´ıstica deviance podem ser definidos similarmente,
dk = sign(yk− nkπˆk) 2 yklog yk nkπˆk + (nk− yk) log nk− yk nk− nkπˆk 1/2 (2.52)
sendo que o termo sign(yk− nkπˆk) garante que dk tenha o mesmo sinal que Xk.
De 2.43, Pm
k=1d 2
k = D, a estat´ıstica deviance. Esses res´ıduos podem ser usados para
checar a adequa¸c˜ao do modelo. Por exemplo, eles poderiam ser plotados contra cada vari´avel explicativa do modelo para checar se a suposi¸c˜ao de linearidade ´e apropriada contra a possibilidade de outra vari´avel explicativa n˜ao inclu´ıda no modelo.
Se os dados s˜ao bin´arios, ou se ni ´e pequeno para a maioria das covari´aveis padr˜oes,
ent˜ao existem poucos valores distintos dos res´ıduos e a plotagem pode ser relativamente pouco informativa. Nesse caso, pode ser necess´ario confiar na qualidade de ajuste das estat´ısticas X2 e D e outros diagn´osticos.
Para mais detalhes sobre o uso dos res´ıduos para dados bin´arios e binomiais, recomenda-se a leitura do cap´ıtulo 5 de Collett(1991) [14].
2.2.5.3 Interpreta¸c˜ao dos coeficientes
A interpreta¸c˜ao dos coeficientes ´e dada atrav´es de uma medida de associa¸c˜ao, obtida comparando a probabilidade de sucesso com a probabilidade de fracasso [15], a raz˜ao de
chances ou odds ratio, denotada por ψ ou OR, e definida como: ψ = π(1)/[1 − π(1)] π(0)/[1 − π(0)], (2.53) e seu logaritmo ´e log(ψ) = log π(1)/[1 − π(1)] π(0)/[1 − π(0)] = g(1) − g(0), (2.54)
onde π(x)/[1 − π(x)] ´e a chance da resposta quando x assume o valor de 0 ou 1 [16], e o seu logaritmo ´e dado por:
g(x) = log{π(x)/[1 − π(x)]}.
Tabela 1: Valores do Modelo de Regress˜ao log´ıstica quando a vari´avel independente ´e dicotˆomica
Vari´avel Vari´avel Independente X
Resposta Y x = 1 x = 0 y = 1 π(1) = exp(β0+β1) 1+exp(β0+β1) π(0) = exp(β0) 1+exp(β0) y = 0 1 − π(1) = 1+exp(β1 0+β1) 1 − π(0) = 1 1+exp(β0) Total 1 1
A partir da Tabela 1, a raz˜ao de chances ´e definida como:
ψ = exp(β0+β1) 1+exp(β0+β1) /1+exp(β1 0+β1) h exp(β0) 1+exp(β0) i /h1+exp(β1 0) i = exp(β0+ β1) exp(β0) = exp(β1), (2.55) e o seu logaritmo ´e log(ψ) = log[exp(β1)] = β1.
Por exemplo, utilizando a presen¸ca ou ausˆencia de irregularidade como Y , e X como a vari´avel para a presen¸ca de uma fonte alternativa na residˆencia, sendo um valor estimado para ψ, como por exemplo, ˆψ = 3, este valor pode ser interpretado como a chance da residˆencia sem uma fonte alternativa possuir uma irregularidade ser trˆes vezes maior que a residˆencia que n˜ao possui uma fonte alternativa.
Sendo a vari´avel explicativa quantitativa, considera-se dois valores distintos da vari´avel, xi e xi+1. A chance da irregularidade existir entre os indiv´ıduos xi+1 em rela¸c˜ao aos
in-div´ıduos xi, pode ser analisada como:
βi > 0 ⇒ ψ > 1 ⇒ π(xi+1) > π(xi)
βi < 0 ⇒ ψ < 1 ⇒ π(xi+1) < π(xi)
Utilizando agora X como a vari´avel dias de atraso no pagamento da conta, se o valor de ˆ
ψ = exp(0, 68) = 1, 97, como ˆψ ´e maior que 1, a chance de existir uma irregularidade tende a aumentar quando aumentam os dias de atraso no pagamento da conta.
Outra forma de interpretar os coeficientes ´e atrav´es da varia¸c˜ao, Varia¸c˜ao = (ψ − 1) × 100.
Utilizando o ´ultimo exemplo com ˆψ = 1, 97 e varia¸c˜ao = (1, 97 − 1) × 100 = 97, ser´a interpretada da seguinte forma, a cada dia de atraso no pagamento da conta, aumenta em 97% a chance de existir uma irregularidade.
2.2.6
Avalia¸
c˜
ao da capacidade preditiva do modelo
Ap´os a sele¸c˜ao do modelo, deve-se avaliar a capacidade preditiva deste. Para isso, a Tabela 2, que representa os resultados do ajuste de um modelo de regress˜ao log´ıstico (valores estimados) e a classifica¸c˜ao real dos indiv´ıduos (valores observados) ´e utilizada. Tabela 2: Tabela de contingˆencia dos resultados do ajuste do modelo e os valores obser-vados
Valores observados
Valores Positivo Negativo
estimados (Y=1) (Y=0) Total
Positivo V P F P T P = V P + F Pˆ ( ˆY = 1) Negativo F N V N T N = F N + V Nˆ ( ˆY = 0) Total T P = V P + F N T N = F P + V N N
Considerando o contexto do problema, adota-se como sucesso a presen¸ca de irregula-ridade e fracasso a sua ausˆencia. Assim,
• V P (verdadeiro positivo): N´umero estimado de liga¸c˜oes irregulares quando as liga¸c˜oes s˜ao irregulares;
• F P (falso positivo): N´umero estimado de liga¸c˜oes irregulares quando as liga¸c˜oes n˜ao s˜ao irregulares;
• F N (falso negativo): N´umero estimado de liga¸c˜oes regulares quando as liga¸c˜oes s˜ao irregulares;
• V N (verdadeiro negativo): N´umero estimado de liga¸c˜oes regulares quando as liga¸c˜oes s˜ao regulares;
• T P (total estimado de positivos): N´ˆ umero total estimado de liga¸c˜oes irregulares; • T N (total estimado de negativos): N´ˆ umero total estimado de liga¸c˜oes regulares; • T P (total de positivos): N´umero total de liga¸c˜oes irregularidades;
• T N (total de positivos): N´umero total de liga¸c˜oes irregulares; • N (total): N´umero total de liga¸c˜oes.
2.2.6.1 Ponto de corte
Ap´os o seu ajuste, o modelo final ter´a como vari´avel resposta o logaritmo da chance da i-´esima liga¸c˜ao ter uma irregularidade, g(πi), vindo de 2.46. Assim, a liga¸c˜ao ser´a
classificada como regular ou irregular.
Um ponto de corte (t0) ser´a determinado para essa classifica¸c˜ao, de forma que:
g(πi) > t0 ⇒ ˆYi = 1
g(πi) ≤ t0 ⇒ ˆYi = 0
2.2.6.2 Sensibilidade
A sensibilidade (S) do modelo ´e definida como a probabilidade da liga¸c˜ao ser irregular (positivo) dado que a liga¸c˜ao realmente ´e irregular, representada por:
S = P ( ˆY = 1/Y = 1) = P ( ˆY = 1, Y = 1) P (Y = 1) = V P V P + F N = V P T P. (2.56)
2.2.6.3 Especificidade
A especificidade (E) do modelo ´e definida como a probabilidade da liga¸c˜ao ser regular (negativo) dado que a liga¸c˜ao ´e realmente regular, representada por:
E = P ( ˆY = 0/Y = 0) = P ( ˆY = 0, Y = 0) P (Y = 0) = F N F N + V N = V N T N. (2.57)
2.2.6.4 Acur´acia do modelo
A Taxa global de classifica¸c˜oes corretas, ou acur´acia (A), pode ser definida como a propor¸c˜ao de acertos do modelo em rela¸c˜ao ao real valor da vari´avel, ou seja, ´e a probabilidade do modelo acertar o real valor da vari´avel, desta forma:
A = P ( ˆY = Y ) = V P + V N
T P + T N =
V P + V N
N . (2.58)
2.2.6.5 Curva ROC
Uma forma mais eficiente de demonstrar a rela¸c˜ao entre a sensibilidade e a especi-ficidade ´e a Curva de Caracter´ısticas de Opera¸c˜ao do Receptor (Curva ROC - Receiver Operating Characteristic), uma ferramenta cujo objetivo ´e descrever quantitativamente o desempenho de um teste diagn´ostico ou avaliar a capacidade preditiva de um modelo.
A varia¸c˜ao do ponto de corte (t0) gera valores paras as taxas de verdadeiros
positi-vos (S) e de falsos positipositi-vos (1 − E), a partir dessa varia¸c˜ao, a curva ´e formada como representa¸c˜ao gr´afica dos pares (S; 1 − E), constru´ıda de forma que o eixo x corresponde a 1 − E e o eixo y a S [17], como pode ser visto na Figura 1.
O pacote ROCR do software R apresenta diversas fun¸c˜oes para constru¸c˜ao de Curva ROC. Para saber mais, consultar [?].
Figura 1: Curva ROC te´orica.
Para este trabalho, o melhor modelo, com melhor acur´acia, deve ter a sensibilidade e especificidade mais pr´oximos do valor 1, no gr´afico este seria representado no ponto (0,1), no canto superior esquerdo do gr´afico, por´em, esse cen´ario ideal dificilmente ser´a alcan¸cado. Assim, o ponto mais pr´oximo do canto superior esquerdo ´e considerado o ponto ideal.
A ´area abaixo da curva ROC ´e outra medida utilizada para analisar a qualidade da curva e o desempenho do modelo selecionado.
Como a curva ROC ´e estimada levando em considera¸c˜ao todos os valores de S e E relativos aos valores t0, a ´area abaixo da curva pode ser interpretada como a probabilidade
do modelo acertar o verdadeiro valor da vari´avel resposta. Um teste sem a capacidade de diferenciar uma liga¸c˜ao irregular de uma regular apresentar´a um ´area sob a curva de valor 0, 5, significando que S ´e igual a 1 − E. Quanto melhor o desempenho do modelo, mais a ´area se aproximar´a do valor 1, e mais pr´oxima do canto superior esquerdo estar´a a curva [18].
3
An´
alise dos Resultados
O banco de dados obtido originalmente possu´ıa 539876 registros, onde cada um cor-respondia a um cliente, e 17 vari´aveis:
• EMPRESA: ID da empresa a qual a liga¸c˜ao pertence; • ID CICLO: ID do ciclo a qual a liga¸c˜ao pertence;
• COMUNIDADE: Indica se a liga¸c˜ao encontra-se localizada em uma comunidade, • DESOC 12M: Informa se ocorreu impedimento de leitura do hidrˆometro referente a n˜ao ocupa¸c˜ao do im´ovel, pelo menos uma vez nos ´ultimos 12 meses, vari´avel bin´aria com “sim”= 1 e “n˜ao”= 0;
• SUSP FRAUDE 12M: Informa se ocorreu impedimento de leitura do hidrˆometro
referente a suspeita de fraude, pelo menos uma vez nos ´ultimos 12 meses, vari´avel bin´aria com “sim”= 1 e “n˜ao”= 0;
• CONMED REF519: Consumo de ´agua medido no mˆes de referˆencia utilizado no estudo;
• MEDIA CONMED 12M: M´edia de consumo de ´agua medido nos ´ultimos 12
meses;
• INFRACAO 12M: Informa se ocorreu notifica¸c˜ao ou auto de infra¸c˜ao pelo menos uma vez nos ´ultimos 12 meses, vari´avel bin´aria com “sim”= 1 e “n˜ao”= 0;
• FONTE ALTERNATIVA: Informa se o cliente possui ou n˜ao fonte alternativa
cadastrada, vari´avel bin´aria com “sim”= 1 e “n˜ao”= 0;
• CORTE 6M: Informa se ocorreu corte na liga¸c˜ao de ´agua nos ´ultimos 6 meses, vari´avel bin´aria com “sim”= 1 e “n˜ao”= 0;
• PERFIL PGTO 6M: Perfil de pagamento do cliente, baseado na m´edia da dife-ren¸ca entre a data de vencimento e de pagamento das contas nos ´ultimos 6 meses; • IMOVEL HABITADO: Informa se o im´ovel est´a habitado, vari´avel bin´aria com
“sim”= 1 e “n˜ao”= 0;
• DEM DESOC VAZIO: Informa se o im´ovel est´a desocupado, demolido ou ´e um terreno vazio, vari´avel bin´aria com “sim”= 1 e “n˜ao”= 0;
• FATOR TROCA HD: Fator de Troca do hidrˆometro da liga¸c˜ao;
• NAO PERMITIU OS 6M: Informa se o cliente n˜ao permitiu a execu¸c˜ao de al-gum servi¸co nos ´ultimos 6 meses, vari´avel bin´aria com “sim”= 1 e “n˜ao”= 0; • TESTE CLORO: Informa se teve algum resultado negativo no teste de cloro no
´
ultimos 6 meses, vari´avel bin´aria com “sim”= 1 e “n˜ao”= 0;
• IRREGULARIDADE: Informa se foi encontrada irregularidade na liga¸c˜ao no
mˆes de referˆencia, vari´avel bin´aria com “sim”= 1 e “n˜ao”= 0.
Uma tabela com resumo das vari´aveis iniciais do banco e suas descri¸c˜oes encontram-se no Anexo A.
Ap´os an´alise inicial do banco, alguns tratamentos foram realizados, como a reti-rada de NA’s, al´em disso, 3 vari´aveis foram desconsideradas, IMOVEL HABITADO por conter mais de 525 mil NA’s, NAO PERMITIU OS 6M por conter apenas um valor e
TESTE CLORO por acompanhar os valores de outra vari´avel do banco. Uma nova
vari´avel foi constru´ıda, DIF CONMED MED12M, calculada a partir da diferen¸ca en-tre o consumo medido no mˆes de referˆencia e a m´edia do consumo medido nos ´ultimos
12 meses, assim, as vari´aveis CONMED REF519 e MEDIA CONMED 12M tamb´em
fo-ram desconsideradas. Ap´os esse tratamento o banco foi reduzido para 2045 clientes e 13 vari´aveis, onde:
Tabela 3: Distribui¸c˜ao das liga¸c˜oes.
Empresa Sem irregularidade Com irregularidade Total
1 226 10 236 2 157 17 174 3 73 6 79 4 23 4 27 5 131 32 163 6 40 6 46 7 370 79 449 8 285 35 320 9 100 91 191 10 185 80 265 11 91 4 95 Total 1681 364 2045
Por meio do software R, utilizando o pacote caret [19], o banco foi dividido em duas amostras, uma para modelagem, com 1636 clientes e outra para teste do modelo final com 409 clientes, equivalentes a 80% e 20% do banco de dados, respectivamente, preservando aproximadamente a mesma propor¸c˜ao de liga¸c˜oes com e sem irregularidade do banco de dados inicial (82, 2% e 17, 8%, respectivamente), amostra de modelagem com 82, 3% e 17, 7% e amostra de teste com 81, 7% e 18, 3%.
Tabela 4: Amostras.
Banco Sem irregularidade Com irregularidade Total
Amostra de Modelagem 1347 289 1636
3.1
Modelo completo e Teste de Wald
Utilizando o amostra de treino para o ajuste do modelo, primeiramente foi obtido o modelo completo, com todas as vari´aveis, e partir deste foi realizado o Teste de Wald de significˆancia individual, a fim de identificar quais vari´aveis tˆem efeito significativo. Os seguintes valores de p-valor foram encontrados para cada vari´avel,
Tabela 5: Resultados do Teste de Wald.
Vari´avel p-valor
EMPRESA >0,01
ID CICLO >0,01
COMUNIDADE 0,01
DESOC 12M >0,01
SUSP FRAUDE 12M >0,01
DIF CONMED MED12M 0,15
INFRACAO 12M >0,01
FONTE ALTERNATIVA 0,08
CORTE 6M 0,12
PERFIL PGTO 6M 0,62
DEM DESOC VAZIO 0,02
FATOR TROCA HD 0,04
Observando os resultados do teste, pode-se identificar as vari´aveis que possuem p-valor menor que o n´ıvel de significˆancia de 5% (α = 0, 05), rejeitando a hip´otese nula, ou seja, s˜ao significativas. Assim, as seguintes vari´aveis foram escolhidas EMPRESA, ID CICLO,
COMUNIDADE, DESOC 12M, SUSP FRAUDE 12M, INFRACAO 12M, DEM DESOC VAZIO e FATOR TROCA HD e o modelo 1 foi obtido.
3.2
Sele¸
c˜
ao autom´
atica
Utilizando a sele¸c˜ao autom´atica, foi obtido o modelo 2, com as vari´aveis EM-PRESA, SUSP FRAUDE 12M, INFRACAO 12M, CORTE 6M, DEM DESOC VAZIO e FATOR TROCA HD.
3.3
Teste de comparabilidade de modelos
Realizando agora o Teste de comparabilidade de modelos, comparando o modelo com-pleto, o modelo 1 e o modelo 2, dois a dois, chegando aos seguintes resultados
Tabela 6: Resultados do Teste de comparabilidade de modelos.
M 0 M 1 p-valor Modelo mais adequado
Modelo 1 Modelo completo 0,1439 Modelo 1
Modelo 2 Modelo completo 0,001 Modelo completo
Modelo 2 Modelo 1 0,002 Modelo 1
A partir dos resultados encontrados, decide-se, com base no p-valor, que o modelo 1 ´e o mais adequado e portanto, foi escolhido para a realiza¸c˜ao do trabalho.
3.4
Capacidade preditiva do modelo
Para a avalia¸c˜ao da capacidade preditiva do modelo, o ponto de corte (t0) ´otimo foi
calculado utilizando a amostra de modelagem e para o seu c´alculo, o pacote ROCR foi utilizado, chegando assim a t0 = 0, 296.
Assim,
ˆ
Yi > t0 = 0, 296 ⇒ ˆYi = 1
ˆ
Yi ≤ t0 = 0, 296 ⇒ ˆYi = 0
A partir desse valor de t0, a capacidade preditiva do modelo ´e avaliada em um
pri-meiro momento aplicando o modelo 1 sobre a amostra de modelagem, calculando sua sensibilidade, especificidade e acur´acia. Os seguintes resultados foram encontrados
Tabela 7: Amostra de modelagem. Valores observados
Valores estimados Com irregularidade Sem irregularidade Total
Com irregularidade 229 39 268
Sem irregularidade 60 1308 1368
Total 289 1347 1636
A sensibilidade apresentou o valor de 79,24%, ou seja, essa ´e a taxa de classifica¸c˜ao correta do modelo para liga¸c˜oes com irregularidade na amostra de modelagem.
A especificidade apresentou o valor de 97,1%, ou seja, essa ´e a taxa de classifica¸c˜ao correta do modelo para liga¸c˜oes sem irregularidade na amostra de modelagem.
A acur´acia apresentou o valor de 93,9%, ou seja, o modelo classifica corretamente 93,9% das liga¸c˜oes.
a sensibilidade, especificidade, acur´acia e a ´area abaixo da curva. Tabela 8: Amostra de teste.
Valores observados
Valores estimados Com irregularidade Sem irregularidade Total
Com irregularidade 61 15 76
Sem irregularidade 14 319 333
Total 75 334 409
A sensibilidade apresentou o valor de 81,3%, ou seja, essa ´e a taxa de classifica¸c˜ao correta do modelo para liga¸c˜oes com irregularidade na amostra de modelagem.
A especificidade apresentou o valor de 95,5%, ou seja, essa ´e a taxa de classifica¸c˜ao correta do modelo para liga¸c˜oes sem irregularidade na amostra de modelagem.
A acur´acia apresentou o valor de 92,9%, ou seja, o modelo classifica corretamente 92,9% das liga¸c˜oes.
A curva ROC (Figura 2), relativa a amostra de teste, apresentou um valor da ´area abaixo da curva de AUC = 0,9343.
Figura 2: Curva ROC do modelo.
O valor de AU C encontrado indica que o modelo 1 tem um bom ajuste para repre-sentar os dados. Para completar a an´alise do modelo o R2 de Mc Fadden tamb´em foi
calculado, chegando ao seguinde valor
R2M F = 0, 6951. (3.1)
Indicando um melhoria proporcional de 69,5%, ou seja, o modelo 1 apresenta um ganho de 69,5% de informa¸c˜ao estimada em rela¸c˜ao ao modelo m´ınimo.
3.5
Interpreta¸
c˜
ao dos coeficientes
Para cada vari´avel foi calculada a raz˜ao de chances (OR) e sua varia¸c˜ao a partir das estimativas de seus coeficientes ( ˆβ), e s˜ao apresentados na Tabela 9. As vari´aveis EM-PRESA e ID CICLO n˜ao foram consideradas nessa se¸c˜ao por possu´ırem muitas categorias, as tabelas encontradas no Anexo B apresentam suas estimativas.
Tabela 9: Estimativas dos coeficientes e raz˜ao de chances.
Vari´avel βˆ OR Varia¸c˜ao
COMUNIDADE 0.60 1.83 82.76
DESOC 12M -0.36 0.70 -30.10
SUSP FRAUDE 12M 0.05 1.05 5.44
INFRACAO 12M 6.32 554.50 55349.60
DEM DESOC VAZIO -1.63 0.20 -80.38
FATOR TROCA HD -0.19 0.83 -17.29
A partir da Tabela 9 pode-se interpretar da seguinte forma,
• A localiza¸c˜ao da liga¸c˜ao em uma comunidade aumenta em 82,8% a chance de possuir uma irregularidade;
• A ocorrˆencia de impedimento de leitura do hidrˆometro referente a n˜ao ocupa¸c˜ao do im´ovel, pelo menos uma vez nos ´ultimos 12 meses, reduz em 30,1% a chance de possuir uma irregularidade;
• A ocorrˆencia de impedimento de leitura do hidrˆometro referente a suspeita de fraude, pelo menos uma vez nos ´ultimos 12 meses, aumenta em 5,4% a chance de possuir uma irregularidade;
• A ocorrˆencia de notifica¸c˜ao ou auto de infra¸c˜ao, pelo menos uma vez nos ´ultimos 12 meses, aumenta 554,5 vezes a chance de possuir irregularidade;
• O im´ovel estar desocupado, demolido ou um terreno vazio reduz em 80,4% a chance de possuir uma irregularidade;
• A cada uma unidade do Fator de Troca do hidrˆometro da liga¸c˜ao a chance de possuir uma irregularidade reduz em 17,3%.
3.6
Conclus˜
ao
Como uma grande parte do ´ındice de perda de ´agua hoje no setor Urbano ´e proveniente de vazamentos e irregularidades nas liga¸c˜oes de ´agua distribu´ıdas por toda a cidade, o combate `a elas tornou-se de grande importˆancia n˜ao apenas para a economia das empresas de distribui¸c˜ao como para a pr´opria popula¸c˜ao.
Com o intuito de diminuir essa perda, as empresas investem cada vez mais no combate a vazamentos e a identifica¸c˜ao de irregularidades, a partir desse cen´ario, um modelo foi ajustado utilizando t´ecnicas estat´ısticas, como modelo linear generalizado e curva ROC, com o aux´ılio do software R. A partir dessas t´ecnicas foram avaliadas vari´aveis existentes no banco de dados de clientes da empresa e assim foram determinadas quais teriam efeitos significativos para o modelo de identifica¸c˜ao de irregularidades.
Com os resultados atuais do modelo, acur´acia de 92,9%, a empresa precisaria mandar menos equipes `a rua em busca de irregularidades, teria os endere¸cos com maior chance de irregularidades, economizando assim, tempo e recursos. Redirecionando as equipes para outros tipos de servi¸cos, atendendo melhor a popula¸c˜ao, melhorando assim sua imagem no mercado e tornando o combate `a irregularidades mais eficiente.
Referˆ
encias
[1] MAGALH ˜AES, L. Crise h´ıdrica no Brasil. Accessado em 28-Fevereiro-2019. Dispon´ıvel em: <https://www.todamateria.com.br/crise-hidrica-no-brasil/>.
[2] BRASIL, T. Agua.´ Accessado em 28-Fevereiro-2019. Dispon´ıvel em:
<http://www.tratabrasil.org.br/saneamento/principais-estatisticas/no-brasil/agua>. [3] ASSEMAE. 46a Assembleia: redu¸c˜ao de perdas ser´a tema de mesa. 2016.
Acces-sado em 28-Fevereiro-2019. Dispon´ıvel em: <http://www.assemae.org.br/noticias- congresso/item/1460-46-assembleia-da-assemae-reducao-de-perdas-sera-tema-de-mesa>.
[4] BRASIL, T. Instituto trata brasil. Perdas de ´agua: novo estudo mostra as perdas nos sistemas de distribui¸c˜ao, a baixa evolu¸c˜ao desses indicadores e os grandes desafios para a solu¸c˜ao., 2015.
[5] BRASIL, T. Instituto trata brasil. Perdas de ´Agua - Desafios para Disponibilidade H´ıdrica e Avan¸co da Eficiˆencia do Saneamento B´asico, 2018.
[6] EOS, B. da. ATITUDES PARA REDUC¸ ˜AO DE PERDAS DE ´AGUA. Accessado
em 28-Fevereiro-2019. Dispon´ıvel em: <https://www.eosconsultores.com.br/reducao-de-perdas-de-agua/>.
[7] NELDER, J. A.; WEDDERBURN, R. W. Generalized linear models. Journal of the Royal Statistical Society: Series A (General), Wiley Online Library, v. 135, n. 3, p. 370–384, 1972.
[8] CORDEIRO, G. M.; DEM´ETRIO, C. G. Modelos lineares generalizados e extens˜oes. Sao Paulo, v. 33, 2008.
[9] DOBSON, A. J.; BARNETT, A. An introduction to generalized linear models. 2. ed. [S.l.]: Chapman and Hall/CRC, 2002.
[10] CHARNES, A.; FROME, E. L.; YU, P.-L. The equivalence of generalized least squa-res and maximum likelihood estimates in the exponential family. Journal of the Ame-rican Statistical Association, Taylor & Francis Group, v. 71, n. 353, p. 169–171, 1976. [11] R Core Team. R: A Language and Environment for Statistical Computing. Vienna,
Austria, 2019. Dispon´ıvel em: <https://www.R-project.org/>.
[12] CRESSIE, N.; READ, T. R. Pearson’s x2 and the loglikelihood ratio statistic g2: a comparative review. International Statistical Review/Revue Internationale de Statisti-que, JSTOR, p. 19–43, 1989.
[13] HOSMER, D. W.; LEMESHOW, S. Goodness of fit tests for the multiple logistic regression model. Communications in statistics-Theory and Methods, Taylor & Francis, v. 9, n. 10, p. 1043–1069, 1980.
[14] COLLETT, D. Modelling binary data. [S.l.]: Chapman and Hall/CRC, 1991.
[15] PAULA, G. A. Modelos de regress˜ao: com apoio computacional. [S.l.]: IME-USP S˜ao Paulo, 2004.
[16] SOUZA, ´E. C. d. An´alise de influˆencia local no modelo de regress˜ao log´ıstica. Tese (Doutorado) — Universidade de S˜ao Paulo, 2006.
[17] MARTINEZ, E. Z.; NETO, F. L.; PEREIRA, B. d. B. A curva roc para testes diagn´osticos. Cadernos de Sa´ude Coletiva, v. 11, n. 1, p. 7–31, 2003.
[18] PRATI, R. C. et al. Curvas roc para avalia¸c˜ao de classificadores. Revista IEEE Am´erica Latina, v. 6, n. 2, p. 215–222, 2008.
[19] Max Kuhn. The caret Package. [S.l.], 2019. Dispon´ıvel em:
ANEXO A -- Vari´
aveis iniciais
A Tabela abaixo apresenta as vari´aveis originais presentes no banco inicial utilizado neste estudo e suas descri¸c˜oes.
Tabela 10: Vari´aveis iniciais
Vari´avel C´odigo Vari´avel Descri¸c˜ao
Empresa EMPRESA ID da empresa que a liga¸c˜ao
per-tence.
Ciclo ID CICLO Ciclo da liga¸c˜ao.
Comunidade COMUNIDADE Liga¸c˜ao em comunidade “sim” ou
“n˜ao”. Ocorrˆencia de leitura
-ocupa¸c˜ao
DESOC 12M Informa se ocorreu
impedi-mento de leitura referente a n˜ao ocupa¸c˜ao do im´ovel nos ´ultimos 12 meses.
Ocorrˆencia de leitura -suspeita de fraude
SUSP FRAUDE 12M Informa se ocorreu suspeita de
fraude nos ´ultimos 12 meses.
Consumo medido CONMED REF519 Consumo medido na referˆencia
utilizada no estudo.
M´edia Consumo
me-dido
MEDIA CONMED 12M M´edia de consumo medido nos
´
ultimos 12 meses. Hist´orico de
noti-fica¸c˜ao ou auto de infra¸c˜ao
INFRACAO 12M Notifica¸c˜ao ou auto de infra¸c˜ao
nos ´ultimos 12 meses.
Fonte Alternativa FONTE ALTERNATIVA Cliente possui ou n˜ao fonte
alter-nativa cadastrada . Hist´orico de corte
exe-cutado
CORTE 6M Corte executado nos ´ultimos 6
meses. Perfil de pagamento
do cliente
PERFIL PGTO 6M M´edia de dias para o pagamento
das contas nos ´ultimos 6 meses. Situa¸c˜ao do im´ovel
-Leitura
IMOVEL HABITADO Im´ovel habitado.
Situa¸c˜ao do im´ovel -OS
DEM DESOC VAZIO Im´ovel desocupado, demolido ou
terreno vazio.
Fator de Troca do HD FATOR TROCA HD Fator de Troca para o hidrˆometro
da liga¸c˜ao.
Permiss˜ao de
execu¸c˜ao de OS
NAO PERMITIU OS 6M Cliente n˜ao permitiu a execu¸c˜ao
de algum servi¸co nos ´ultimos 6 meses.
Teste de cloro TESTE CLORO Resultado negativo para o teste
de cloro no ´ultimos 6 meses.
Irregularidade IRREGULARIDADE Existˆencia de irregularidade no