• Nenhum resultado encontrado

Modelo de regressão logística para identificação de irregularidades em ligações de água

N/A
N/A
Protected

Academic year: 2021

Share "Modelo de regressão logística para identificação de irregularidades em ligações de água"

Copied!
52
0
0

Texto

(1)

Modelo de Regress˜

ao Log´ıstica para

Identifica¸

ao de Irregularidades em Liga¸

oes

de ´

Agua

Niter´oi - RJ, Brasil 18 de Dezembro 2019

(2)

Victor Matias Galv˜

ao Vit´

oria

Modelo de Regress˜

ao Log´ıstica para

Identifica¸

ao de Irregularidades em

Liga¸

oes de ´

Agua

Trabalho de Conclus˜ao de Curso

Projeto Final II apresentado para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.

Orientador: Prof. Dr. Hugo Henrique Kegler dos Santos

Niter´oi - RJ, Brasil 18 de Dezembro 2019

(3)

Victor Matias Galv˜

ao Vit´

oria

Modelo de Regress˜

ao Log´ıstica para

Identifica¸

ao de Irregularidades em Liga¸

oes

de ´

Agua

Projeto Final II de Gradua¸c˜ao sob o t´ıtulo “Modelo de Regress˜ao Log´ıstica para Identifica¸c˜ao de Irregularidades em Liga¸c˜oes de ´Agua”, defendida por Victor Matias Galv˜ao Vit´oria em 18 de Dezembro 2019, na cidade de Niter´oi, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:

Prof. Dr. Hugo Henrique Kegler dos Santos Orientador Departamento de Estat´ıstica – UFF

Prof.a Dr.a Karina Yuriko Yaginuma

Departamento de Estat´ıstica – UFF

Prof. Dr. Luis Guillermo Coca Velarde Departamento de Estat´ıstica – UFF

(4)

Bibliotecário responsável: Ana Nogueira Braga - CRB7/4776

V845m Vitória, Victor Matias Galvão

Modelo de Regressão Logística para Identificação de Irregularidades em Ligações de Água / Victor Matias Galvão Vitória ; Hugo Henrique Kegler dos Santos, orientador. Niterói, 2019.

50 f. : il.

Trabalho de Conclusão de Curso (Graduação em

Estatística)-Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2019.

1. Regressão logística. 2. Produção intelectual.I.

Santos, Hugo Henrique Kegler dos, orientador. II. Universidade Federal Fluminense. Instituto de Matemática e Estatística. III. Título.

(5)

-O desperd´ıcio de ´agua ´e um tema que vem sendo muito discutido e um dado preo-cupante para o Brasil, que viveu nos ´ultimos anos uma das piores crises h´ıdricas da sua hist´oria. V´arias pesquisas de m´etodos de combate ao desperd´ıcio de ´agua est˜ao sendo aplicados e novas t´ecnicas estudadas por diversas empresas e ´org˜aos do pa´ıs. Utilizando dados de uma empresa de saneamento b´asico, o presente trabalho tem como objetivo estudar e avaliar a associa¸c˜ao entre algumas vari´aveis caracter´ısticas de clientes e assim identificar liga¸c˜oes que possuem alguma irregularidade. O Modelo de Regress˜ao Log´ıstica possui como vari´avel resposta a chance (em escala logar´ıtmica) de um evento ocorrer, assim, ele foi utilizado para obter a chance de alguma liga¸c˜ao possuir irregularidade.

Trˆes modelos foram ajustados e o modelo escolhido possui uma taxa de acerto (acur´acia) de 92, 9%. A partir desse modelo, a empresa poder´a identificar mais facilmente as liga¸c˜oes que possuem algum tipo de irregularidade, contribuindo para a redu¸c˜ao do seu ´ındice de perda de ´agua.

(6)

Ser aluno de uma Universidade federal n˜ao ´e uma tarefa f´acil, chegar at´e o final ´e um caminho longo e cheio de obst´aculos. N˜ao conseguiria enfrentar esse ´arduo desafio sozinho.

Agrade¸co `a minha fam´ılia e minha namorada por todo o apoio durante todos esses anos de estudo, sempre me dando for¸ca e nunca desistindo de acreditar no meu potencial. Aos amigos, que passaram pelas mesmas dificuldades ao meu lado, compartilhando os bons e maus momentos e tamb´em aos que apoiaram mesmo de longe, sempre desejando o melhor e transmitindo boas vibra¸c˜oes.

A todos os professores, por todos os conselhos e ajuda durante todo o percurso, n˜ao s´o os da faculdade mas todos que passaram pela minha trajet´oria at´e aqui.

Aos colegas de trabalho que ajudaram com conselhos e ensinamentos tamb´em funda-mentais `a minha forma¸c˜ao.

Por fim, sou muito grato a todos que passaram pela minha vida em algum momento e que ajudaram de alguma forma nessa trajet´oria.

(7)

Lista de Figuras

Lista de Tabelas

1 Introdu¸c˜ao p. 10

2 Materiais e M´etodos p. 12

2.1 Base de Dados . . . p. 12 2.2 Modelos Lineares Generalizados (MLG) . . . p. 12 2.2.1 Fam´ılia exponencial . . . p. 13 2.2.1.1 Propriedades da Fam´ılia exponencial . . . p. 14 2.2.2 Fun¸c˜ao Escore . . . p. 16 2.2.3 Estima¸c˜ao dos Parˆametros do Modelo Linear Generalizado via

M´axima Verossimilhan¸ca . . . p. 17 2.2.3.1 Distribui¸c˜ao amostral para estat´ıstica escore . . . p. 21 2.2.3.2 Distribui¸c˜ao amostral para estimadores de m´axima

ve-rossimilhan¸ca . . . p. 22 2.2.3.3 Estat´ıstica de raz˜ao da verossimilhan¸ca . . . p. 23 2.2.3.4 Distribui¸c˜ao amostral para a estat´ıstica deviance . . . p. 24 2.2.4 Crit´erios para sele¸c˜ao de modelos . . . p. 26 2.2.4.1 Teste de Wald de significˆancia individual . . . p. 26 2.2.4.2 Sele¸c˜ao autom´atica de vari´aveis . . . p. 26 2.2.4.3 Teste de comparabilidade de modelos . . . p. 27

(8)

2.2.5.1 Estat´ıstica de qualidade de ajuste . . . p. 29 2.2.5.2 Res´ıduos . . . p. 32 2.2.5.3 Interpreta¸c˜ao dos coeficientes . . . p. 32 2.2.6 Avalia¸c˜ao da capacidade preditiva do modelo . . . p. 34 2.2.6.1 Ponto de corte . . . p. 35 2.2.6.2 Sensibilidade . . . p. 35 2.2.6.3 Especificidade . . . p. 36 2.2.6.4 Acur´acia do modelo . . . p. 36 2.2.6.5 Curva ROC . . . p. 36

3 An´alise dos Resultados p. 38

3.1 Modelo completo e Teste de Wald . . . p. 41 3.2 Sele¸c˜ao autom´atica . . . p. 41 3.3 Teste de comparabilidade de modelos . . . p. 41 3.4 Capacidade preditiva do modelo . . . p. 42 3.5 Interpreta¸c˜ao dos coeficientes . . . p. 44 3.6 Conclus˜ao . . . p. 45

Referˆencias p. 46

Anexo A -- Vari´aveis iniciais p. 48

(9)

1 Curva ROC te´orica. . . p. 37 2 Curva ROC do modelo. . . p. 43

(10)

1 Valores do Modelo de Regress˜ao log´ıstica quando a vari´avel independente ´

e dicotˆomica . . . p. 33 2 Tabela de contingˆencia dos resultados do ajuste do modelo e os valores

observados . . . p. 34 3 Distribui¸c˜ao das liga¸c˜oes. . . p. 40 4 Amostras. . . p. 40 5 Resultados do Teste de Wald. . . p. 41 6 Resultados do Teste de comparabilidade de modelos. . . p. 42 7 Amostra de modelagem. . . p. 42 8 Amostra de teste. . . p. 43 9 Estimativas dos coeficientes e raz˜ao de chances. . . p. 44 10 Vari´aveis iniciais . . . p. 49 11 Estimativas dos coeficientes e raz˜ao de chances da vari´avel EMPRESA. p. 50 12 Estimativas dos coeficientes e raz˜ao de chances da vari´avel ID CICLO. p. 51

(11)

1

Introdu¸

ao

O Brasil iniciou o ano de 2019 enfrentando uma grande crise h´ıdrica, considerada a pior da hist´oria do pa´ıs. Essa crise se d´a pela combina¸c˜ao de v´arios fatores como a diminui¸c˜ao do n´ıvel de chuvas, aumento do consumo e o desperd´ıcio [1]. A m´edia nacional de perdas de ´agua no Brasil alcan¸ca a taxa de 38,29% [2], levando em conta

que o Plano Nacional de Saneamento B´asico (PLANSAB) determinou como meta para

o Brasil redu¸c˜ao das perdas para 31% na distribui¸c˜ao at´e 2033 [3]. Em 2013 o Sistema Nacional de Informa¸c˜oes sobre Saneamento (SNIS) apresentou dados que mostravam as perdas na distribui¸c˜ao em 37% e as perdas financeiras totais em 39%, significando que esse percentual de recursos n˜ao entrava na receita do setor de saneamento b´asico. Essa perda foi equivalente a 6,53 bilh˜oes de m3 de ´agua n˜ao faturada pelas empresas, e perda financeira equivalente a 80% dos investimentos no setor em 2013 [4].

Segundo a ONU, a quantidade di´aria suficiente para atender as necessidades b´asicas de uma pessoa ´e de 110 litros, e de acordo com dados do Instituto Trata Brasil, no Brasil o consumo m´edio ´e de 154,1 litros por habitante/dia, 40% acima do recomendado [2]. A partir desse cen´ario, a perda de ´agua tornou-se um assunto muito discutido, principal-mente para as empresas que realizam servi¸cos de saneamento no pa´ıs, que tˆem investido na preven¸c˜ao e combate `as perdas, com controle de press˜ao da ´agua, monitoramento e agilidade no reparo de vazamentos, a¸c˜oes para a troca de hidrˆometros antigos e combate `

a fraudes, entre outros.

Perda de recurso h´ıdrico ocorre em qualquer processo de distribui¸c˜ao e abastecimento de ´agua no mundo, e pode ser classificada de duas formas: a perda real, que ´e associada a vazamentos, e a perda aparente, associada a erros de medi¸c˜ao ou fraudes [5]. Toda a¸c˜ao que tem como objetivo distorcer o real consumo de ´agua do usu´ario (como liga¸c˜oes clandestinas na rede de abastecimento, desvios de ´agua antes de chegar ao hidrˆometro, viola¸c˜oes de cortes, altera¸c˜ao no hidrˆometro) [6] ´e considerada uma fraude. Essas a¸c˜oes contribuem para o aumento do ´ındice de perda na rede p´ublica de ´agua, fazendo com que os consumidores regulares paguem a mais para compensar as perdas provenientes das

(12)

irregularidades, al´em de contaminar a rede p´ublica e o meio ambiente, trazendo tamb´em impactos negativos `a receita das empresas e aos investimentos necess´arios para o sanea-mento.

A detec¸c˜ao de fraudes e irregularidades tem se tornado um dos principais objetivos de empresas de v´arios setores econˆomicos, se tornando alvo de grande interesse no mercado. No caso das empresas do GRUPO, grupo de empresas concession´arias de saneamento b´asico, anteriormente, o combate `a fraudes e irregularidades era feito de forma manual: observava-se o consumo de cada liga¸c˜ao de ´agua, buscando algum ind´ıcio de fraude, como uma diminui¸c˜ao brusca do consumo de um mˆes para outro e enviando equipes para fis-caliza¸c˜ao no local. Na fiscaliza¸c˜ao, a equipe verifica o funcionamento do hidrˆometro e procura irregularidades nele e no seu entorno, em alguns casos, um equipamento pr´oprio, denominado geofone, que serve para escutar ru´ıdos na terra, ´e utilizado. Por´em, este equipamento n˜ao ´e muito eficaz, por conta da detec¸c˜ao de outros ru´ıdos, como de carros passando pelo local, atrapalhando a inspe¸c˜ao. Hoje j´a se utiliza outro m´etodo: atrav´es de um algoritmo, ´e gerada uma pontua¸c˜ao para cada liga¸c˜ao de ´agua, e, a partir de uma nota de corte, ´e determinado se existe ou n˜ao uma irregularidade, e assim equipes s˜ao enviadas ao local para a devida fiscaliza¸c˜ao. O resultado do novo m´etodo ´e melhor, mas ainda longe do ideal.

O objetivo principal deste trabalho ´e estudar os efeitos de caracter´ısticas de cada cliente da empresa, a fim de prever a existˆencia de irregularidades na liga¸c˜ao de ´agua deste, e os objetivos secund´arios deste trabalho s˜ao: aprimorar as t´ecnicas usadas na detec¸c˜ao de irregularidades, desenvolver um modelo de classifica¸c˜ao de liga¸c˜oes de ´agua com irregularidade ou n˜ao, e comparar os modelos ajustados atrav´es de um crit´erio de sele¸c˜ao.

(13)

2

Materiais e M´

etodos

2.1

Base de Dados

A base utilizada para o estudo cont´em dados de 539876 clientes com 17 vari´aveis pro-venientes da base de dados do GRUPO, divididos entre suas 11 empresas concession´arias e distribu´ıdas pelos estados do RJ, SP e MG. Essas vari´aveis representam dados hist´oricos de consumo dos clientes, assim como caracter´ısticas da liga¸c˜ao e da sua localiza¸c˜ao. O mˆes de referˆencia utilizado foi Maio de 2019.

2.2

Modelos Lineares Generalizados (MLG)

O Modelo de Regress˜ao Linear Simples (An´alise de Regress˜ao Linear) ´e uma t´ecnica muito utilizada para analisar a rela¸c˜ao entre duas vari´aveis, sendo uma explicativa e outra dependente (ou resposta), supondo-se que a vari´avel dependente segue uma distribui¸c˜ao normal. Essa suposi¸c˜ao limita o uso desse modelo, surgindo, ent˜ao, os Modelos Linea-res Generalizados (MLG), nos quais a normalidade n˜ao ´e mais necess´aria, sendo poss´ıvel utilizar outras distribui¸c˜oes para a resposta. Introduzidos por Nelder e Wedderburn em 1972 [7], os MLG’s s˜ao uma uni˜ao de diversas t´ecnicas estat´ısticas j´a estudadas separa-damente. Um MLG envolve uma vari´avel resposta univariada, um conjunto de vari´aveis explicativas e uma amostra aleat´oria de n observa¸c˜oes independentes, sendo que:

i) a vari´avel resposta, tamb´em chamada de vari´avel dependente ou componente aleat´orio, segue distribui¸c˜ao pertencente `a fam´ılia exponencial.

ii) as vari´aveis explicativas, tamb´em chamadas de vari´aveis independentes entram na forma de um modelo linear, constituindo o componente sistem´atico do modelo; iii) a liga¸c˜ao entre os componentes aleat´orio e sistem´atico ´e feita por meio de uma fun¸c˜ao

(14)

2.2.1

Fam´ılia exponencial

Introduzida por Fisher, a fam´ılia exponencial de distribui¸c˜oes re´une o conjunto de distribui¸c˜oes nas quais s˜ao aplicados os modelos lineares generalizados [8].

A fam´ılia exponencial de distribui¸c˜oes ´e caracterizada por uma fun¸c˜ao de probabili-dade, ou de densiprobabili-dade, expressa na forma

f (y; θ) = s(y)t(θ) exp{a(y)b(θ)}, (2.1)

podendo ser reescrita na forma

f (y; θ) = exp{a(y)b(θ) + c(θ) + d(y)}, (2.2)

sendo s(y) = exp{d(y)} e t(θ) = exp{c(θ)}, θ o parˆametro de interesse e a(·), b(·), c(·) e d(·) fun¸c˜oes reais conhecidas. Se a(y) = y, ent˜ao ´e dito que a distribui¸c˜ao est´a em sua forma canˆonica e b(θ) ´e chamado de parˆametro natural da distribui¸c˜ao.

Diversas distribui¸c˜oes conhecidas podem ser escritas na forma (2.2), sendo assim per-tencentes `a fam´ılia exponencial, tais como: binomial, Poisson, exponencial, geom´etrica, normal, gama, dentre outras. A seguir, s˜ao mostrados trˆes exemplos de como verificar se a fun¸c˜ao pertence, ou n˜ao, `a fam´ılia exponencial.

Exemplo 2.2.1. Considere a distribui¸c˜ao Normal com parˆametros µ e σ2 > 0, sendo µ o

parˆametro de interesse, e fun¸c˜ao distribui¸c˜ao de probabilidade f (x; µ, σ2) = √ 1 2πσ2 exp  −(x − µ)2 2σ2  . (2.3)

A fim de colocar a fun¸c˜ao de distribui¸c˜ao na forma exponencial, tem-se: f (x; µ, σ2) = exp  xµ σ2 − x2 2σ2 − µ2 2σ2 − 1 2log(2πσ 2)  , (2.4)

e assim, a fun¸c˜ao distribui¸c˜ao est´a em sua forma canˆonica, com a(x) = x, a fun¸c˜ao do parˆametro natural b(µ) = σµ2 e os outros termos como c(µ) = −

µ2 2σ2 − 1 2log(2πσ 2) e d(x) = −x22.

(15)

Exemplo 2.2.2. Considerando a distribui¸c˜ao Poisson com parˆametro λ > 0, pode-se colocar a fun¸c˜ao de distribui¸c˜ao na forma exponencial:

f (x; λ) = e −λ λx x! = exp  log e −λ λx x! 

= exp{−λ + x log(λ) − log(x!)}

= exp{x log(λ) − λ − log(x!)}. (2.5)

Assim, a(x) = x, o que indica a forma canˆonica, a fun¸c˜ao do parˆametro natural b(λ) = log(λ) e os outros termos como c(λ) = −λ e d(x) = − log(x!).

Exemplo 2.2.3. Considere a distribui¸c˜ao Binomial com parˆametros n, n´umero de ensaios independentes e 0 < p < 1, com fun¸c˜ao de probabilidade

f (x; n, p) =n x  px(1 − p)n−x= exp  logn p  px(1 − p)n−x  = exp  logn x 

+ x log(p) + n log(1 − p) − x log(1 − p) 

= exp 

x(log(p) − log(1 − p)) + n log(1 − p) + logn x



. (2.6)

Observe que a fun¸c˜ao est´a na forma canˆonica, com a(x) = x parˆametro natural, b(p) = log(p)−log(1−p) = log1−pp e os outros termos como c(p) = n log(1−p) e d(x) = log nx.

2.2.1.1 Propriedades da Fam´ılia exponencial

O valor esperado e a variˆancia de a(y) podem ser obtidos a partir de resultados v´alidos nas opera¸c˜oes para qualquer fun¸c˜ao densidade de probabilidade na qual a ordem de integra¸c˜ao e deriva¸c˜ao possa ser trocada, temos

Z

(16)

Se a vari´avel aleat´oria Y for discreta, a integral ´e substitu´ıda por um somat´orio. Derivando os dois lados da igualdade em 2.7 em rela¸c˜ao a θ, obt´em-se

d dθ

Z

f (y; θ)dy = d

dθ1 = 0.

Alterando a ordem de deriva¸c˜ao e integra¸c˜ao no primeiro termo, obt´em-se

Z d

dθf (y; θ)dy = 0. (2.8)

Derivando a equa¸c˜ao 2.7 duas vezes em rela¸c˜ao a θ e alterando a ordem de deriva¸c˜ao e integra¸c˜ao novamente, a seguinte equa¸c˜ao ´e obtida

Z d2 dθ2f (y; θ)dy = 0. (2.9) Derivando a equa¸c˜ao 2.2, d dθf (y; θ) = [a(y)b 0(θ) + c0(θ)]f (y; θ). (2.10)

e aplicando o resultado em 2.8, tem-se Z

[a(y)b0(θ) + c0(θ)]f (y; θ)dy = 0. (2.11)

Pela defini¸c˜ao do valor esperado, sabe-se queR a(y)f (y; θ)dy = E[a(y)], e R c0(θ)f (y; θ)dy = c0(θ) por 2.7. Ent˜ao,

Z

a(y)b0(θ)f (y; θ) + c0(θ)f (y; θ)dy = 0

b0(θ)E[a(y)] + c0(θ) = 0

E[a(y)] = −c

0(θ)

b0(θ). (2.12)

De forma similar, pode-se obter Var[a(y)]: d2

dθ2f (y; θ) = [a(y)b 00

(θ) + c00(θ)]f (y; θ) + [a(y)b0(θ) + c0(θ)]2f (y; θ).

Utilizando, 2.12, reescreve-se [a(y)b0(θ) + c0(θ)]2f (y; θ) como

(17)

e, pela equa¸c˜ao 2.9, obtem-se Z d2 dθ2f (y; θ) = b 00 (θ)E[a(y)] + c00(θ) + [b0(θ)]2var[a(y)] = 0. (2.13)

Uma vez que R {a(y) − E[a(y)]}2f (y; θ) = var[a(y)] por defini¸c˜ao, aplica-se 2.12 em

2.13, obtendo-se

var[a(y)] = b

00(θ)c0(θ) − c00(θ)b0(θ)

[b0(θ)]3 . (2.14)

2.2.2

Fun¸

ao Escore

A fun¸c˜ao escore ´e utilizada na inferˆencia sobre os valores dos parˆametros em modelos lineares generalizados [9], e ´e definida como:

U (θ) = d

dθ`(θ; y), (2.15)

sendo `(θ; y) o logaritmo da fun¸c˜ao de verossimilhan¸ca correspondente a uma ´unica ob-serva¸c˜ao no modelo. Assim, aplicando a forma 2.2, `(θ; y) ´e dado por:

`(θ; y) = a(y)b(θ) + c(θ) + d(y). (2.16)

Aplicando 2.16 em 2.15, tem-se

U (θ) = a(y)b0(θ) + c0(θ). (2.17)

A fun¸c˜ao U (θ), denotada por U , tamb´em chamada de estat´ıstica escore, pode ser vista como uma vari´avel aleat´oria, com valor esperado

E(U ) = b0(θ)E[a(y)] + c0(θ),

e aplicando 2.12, obt´em-se

E(U ) = b0(θ)  −c 0(θ) b0(θ)  + c0(θ) = 0. (2.18)

Al´em disso, variˆancia de U, denominada informa¸c˜ao e denotada como τ , ´e dada por τ = var(U ) = [b0(θ)]2var[a(y)],

(18)

o que, como consequˆencia de 2.14, resulta em: var(U ) = b 00(θ)c0(θ) b0(θ) − c 00 (θ). (2.19)

Uma consequˆencia interessante ´e que

var(U ) = E(U )2 = −E(U0)

pois, dado o resultado geral

var(X) = E(X2) − [E(X)]2,

e como visto em 2.18, E(U ) = 0, ent˜ao temos a primeira igualdade. A segunda ´e encon-trada a partir da derivada de U em rela¸c˜ao a θ,

U0 = dU

dθ = a(y)b

00

(θ) + c00(θ).

Desta forma, a esperan¸ca de U ´e calculada da forma E(U0) = b00(θ)E[a(y)] + c00(θ) = b00(θ)  −c 0(θ) b0(θ)  + c00(θ) = −var(U ) = −τ, substituindo 2.12 e utilizando 2.19.

2.2.3

Estima¸

ao dos Parˆ

ametros do Modelo Linear

Generali-zado via M´

axima Verossimilhan¸

ca

O estimador de m´axima verossimilhan¸ca, ˆθ, ´e a solu¸c˜ao de U (θ) = 0 que ´e obtido a partir do m´etodo de aproxima¸c˜ao de Newton-Raphson. A estima¸c˜ao das ra´ızes de uma fun¸c˜ao ´e descrita a seguir.

Deseja-se obter o valor de x na fun¸c˜ao t que corta o eixo x, onde t(x) = 0. Escolhendo-se uma aproxima¸c˜ao inicial x(0), obt´em-se aproxima¸c˜oes resultantes x(1), x(2), x(3), ..., da

(19)

seguinte forma: Dada a (m − 1)-´esima aproxima¸c˜ao de x, a inclina¸c˜ao de t neste ponto ´e  dt dx  x=x(m−1) = t0(x(m−1)) = t(x (m)) − t(x(m−1)) x(m)− x(m−1) , (2.20)

sendo a distˆancia x(m)− x(m−1) pequena. Se x(m) ´e a solu¸c˜ao desejada, ent˜ao t(x(m)) = 0,

e assim, pode-se construir este ponto reescrevendo 2.20 como x(m)= x(m−1)− t(x

(m−1))

t0(x(m−1)). (2.21)

Esta ´e a f´ormula de Newton-Raphson para resolver t(x) = 0. Dando uma aproxima¸c˜ao inicial x(0) seguida de aproxima¸c˜oes resultantes de 2.21 at´e o processo de itera¸c˜oes

conver-gir. Para a estima¸c˜ao de m´axima verossimilhan¸ca usando a fun¸c˜ao escore 2.15, a equa¸c˜ao de estima¸c˜ao ´e equivalente a

θ(m) = θ(m−1)+ U

(m−1)

τ(m−1). (2.22)

Sejam Y1, . . . , Ynvari´aveis aleat´orias independentes que satisfa¸cam as propriedades do

modelo linear generalizado. Para estimar o vetor de parˆametros β relacionados com Yi’s

atrav´es da E(Yi) = µi e g(µi) = x>i β e para cada Yi a fun¸c˜ao log-verossimilhan¸ca ´e

li = yib(θi) + c(θi) + d(yi), (2.23)

onde as fun¸c˜oes b, c e d s˜ao definidas em 2.2. Al´em disso E(Yi) = µi = − c0(θi) b0 i) , (2.24) var(Yi) = [b00(θi)c0(θi) − c00(θi)b0(θi)] [b0 i)]3 , (2.25) e g(µi) = x>i β = ηi, (2.26)

sendo xi o vetor com elementos xij, j = 1, . . . , p.

A fun¸c˜ao log-verossimilhan¸ca para todo Yi’s ´e

l = N X i=1 li = N X i=1 yib(θi) + N X i=1 c(θi) + N X i=1 d(yi).

(20)

utili-zando a regra da cadeia: dl dβj = Uj = N X i=1  dli dβj  = N X i=1  dli dθi .dθi dµi .dµi dβi  . (2.27)

Para encontrar o resultado final de 2.27, considera-se cada termo de forma separada. O primeiro termo ´e encontrado derivando 2.23, isto ´e,

dli

dθi

= yib0(θi) + c0(θi) = b0(θi)(yi− µi),

e para encontrar o segundo termo, observa-se que dθi dµi = 1 dµi dθi  , al´em do resultado de 2.25. Assim,

dµi dθi = −c 00 i) b0 i) +c 0 i)b00(θi) [b0(θ)]2 = b0(θi)var(Yi),

O ´ultimo termo ´e encontrado via2.26, ou seja, dµi dβj = dµi dηi .dηi dβj = dµi dηi xij.

Aplicando-se os trˆes resultados encontrados acima, tem-se que o escore Uj ´e

Uj = N X i=1  (yi− µi) var(Yi) xij  dµi dηi  . (2.28)

A matriz de variˆancia-covariˆancia de Uj’s tem termos τjk = E[UjUk], formando a

matriz de informa¸c˜ao τ . Assim, de 2.28, tem-se

τjk = E ( N X i=1  (Yi− µi) var(Yi) xij  dµi dηi  N X l=1  (Yl− µl) var(Yl) xlk  dµl dηl ) = N X i=1 E[(Yi− µi)2]xijxik [var(Yi)]2  dµi dηi 2 , (2.29)

(21)

E[(Yi− µi)2] = var(Yi), nota-se que 2.29 pode ser simplificada para τjk = N X i=1 xijxik var(Yi)  dµi dηi 2 . (2.30)

A equa¸c˜ao de estima¸c˜ao 2.22 para o m´etodo de escore generalizado para

b(m) = b(m−1)+ [τ(m−1)]−1U(m−1), (2.31)

sendo b(m) o vetor de estimativas dos parˆametros β1, . . . , βp na m-´esima itera¸c˜ao. Na

equa¸c˜ao 2.31, [τ(m−1)]−1 ´e a inversa da matriz de informa¸c˜ao com elementos τjk dado

por 2.30 e U(m−1) ´e o vetor de elementos dados por 2.28, todos avaliados em b(m−1). Multiplicando-se a equa¸c˜ao 2.31 por τ(m−1), obt´em-se

τ(m−1)b(m) = τ(m−1)b(m−1)+ U(m−1). (2.32)

A partir de 2.30, τ pode ser escrita como τ = X>W X,

sendo W a diagonal N × N da matriz com elementos wii= 1 var(Yi)  dµi dηi 2 . (2.33)

A express˜ao 2.32 ´e o vetor com elementos

p X k=1 N X i=1 xijxik var(Yi)  dµi dηi 2 b(m−1)k + N X i=1 (yi − µi)xij var(Yi)  dµi dηi  ,

avaliado em b(m−1), vindo das equa¸c˜oes 2.30 e 2.28. Portanto a equa¸c˜ao 2.32 pode ser escrita como

X>W z,

sendo os elementos de z dados por

zi = p X k=1 xikb (m−1) k + (yi− µi)  dηi dµi  , (2.34)

com µi e dηii avaliados em b(m−1). Consequentemente, a equa¸c˜ao 2.32, pode ser escrita

como

(22)

Esta ´e a mesma forma das equa¸c˜oes normal para modelos lineares obtidos por m´ınimos quadrados, exceto por esta ter que ser resolvida iterativamente, pois em geral, z e W dependem de b. Consequentemente para modelos lineares generalizados, estimadores de m´axima verossimilhan¸ca s˜ao obtidos por uma itera¸c˜ao por m´ınimos quadrados, apresentado por A. Charnes, E. L. Frome e P. L. Yu et. al [10].

A maior parte dos pacotes estat´ısticos que incluem processos de ajuste de modelos lineares generalizados tem um eficiente algoritmo baseado em 2.35. Eles come¸cam usando aproxima¸c˜oes iniciais b(0) para avaliar z e W , ent˜ao 2.35 ´e resolvida e b(1) ´e fornecida, a qual ´e utilizada para obter melhores aproxima¸c˜oes para z e W , e seguindo assim at´e a convergˆencia adequada ser alcan¸cada. Quando a diferen¸ca entre as consecutivas apro-xima¸c˜oes b(m−1) e b(m) ´e suficientemente pequena, b(m) ´e considerada como a estimativa de m´axima verosimilhan¸ca.

Neste trabalho, o ajuste dos modelos ´e feito utilizando o software R [11].

2.2.3.1 Distribui¸c˜ao amostral para estat´ıstica escore

Supondo Y1, . . . , YN vari´aveis aleat´orias independentes de um modelo linear

generali-zado com parˆametros β onde E(Yi) = µi e g(µi) = x>β = ηi. Vindo de 2.29, a estat´ıstica

escore ´e Uj = dl dβj = N X i=1  (Yi− µi) var(Yi) xij  dµi dηi  para j = 1, . . . , p.

Como E(Yi) = µi para todo i.

E(U ) = 0 para j = 1, . . . , p. (2.36)

A matriz de variˆancia e covariˆancia das estat´ısticas escore ´e a matriz informa¸c˜ao τ com elementos

τjk = E[UjUk],

dada por 2.30.

Se existe apenas um parˆametro β, a estat´ıstica escore tem distribui¸c˜ao amostral assint´otica √U τ ∼ N (0, 1), ou de forma equivalente U2 τ ∼ χ 2(1), pois E(U ) = 0 e var(U ) = τ .

Se existir um vetor de parˆametros β =     β1 .. . βp    

ent˜ao o vetor escore U =     U1 .. . Up     tem

(23)

a distribui¸c˜ao Normal multivariada U ∼ N (0, τ ), pelo menos assintoticamente, e assim, para grandes amostras

U>τ−1U ∼ χ2(p) (2.37)

Exemplo 2.2.4. Estat´ıstica escore para distribui¸c˜ao Binomial. Se Y ∼ Binomial(n, π) a fun¸c˜ao log-verossimilhan¸ca ´e

l(π; y) = y log(π) + (n − y) log(1 − π) + logn y



ent˜ao a estat´ıstica escore ´e

U = dl dπ = Y π − n − Y 1 − π = Y − nπ π(1 − π).

Como E(Y ) = nπ, ent˜ao, tem-se que E(U ) = 0, e al´em disso, var(Y ) = nπ(1 − π), implicando em

τ = var(U ) = 1

π2(1 − π)2var(Y ) =

n π(1 − π), e, como consequˆencia, tem-se aproximadamente

U √

τ =

Y − nπ

pnπ(1 − π) ∼ N (0, 1).

Esta ´e a aproxima¸c˜ao para distribui¸c˜ao Normal usada para encontrar os intervalos de confian¸ca e testar hip´oteses para π.

2.2.3.2 Distribui¸c˜ao amostral para estimadores de m´axima verossimilhan¸ca A partir da aproxima¸c˜ao por S´erie de Taylor, tem-se que para a fun¸c˜ao escore de parˆametro ´unico β, os dois primeiros termos da aproxima¸c˜ao pr´oxima da estimativa de b ´e dada por

U (β) = U (b) + (β − b)U0(b).

Se U0 ´e aproximado por E(U0) = −τ , obt´em-se

U (β) = U (b) − (β − b)τ (b). A express˜ao correspondente para o vetor de parˆametros β ´e

U (β) = U (b) − τ (b)(β − b), (2.38)

podendo ser utilizada para obter a distribui¸c˜ao amostral do estimador de m´axima veros-similhan¸ca b = ˆβ. Por defini¸c˜ao, b ´e o estimador que maximiza l(b), e assim U (b) = 0.

(24)

Ent˜ao,

U (β) = −τ (b)(β − b), ou de forma equivalente,

(b − β) = τ−1U ,

sendo τ n˜ao singular.

Se τ ´e considerada como constante, ent˜ao E(b − β) = 0, pois E(U ) a partir da equa¸c˜ao 2.36. Ent˜ao, assintoticamente, E(b) = β, assim, b ´e estimador consistente para β e a matriz de variˆancia-covariˆancia para b ´e

E[(b − β)(b − β)>] = τ−1E(U U>)τ = τ>, (2.39)

pois τ = E(U U>) e (τ−1)> = τ−1, como τ ´e sim´etrica. A distribui¸c˜ao amostral as-sint´otica para b ´e

(b − β)>τ (b)(b − β) ∼ χ2(p). (2.40)

Esta ´e a Estat´ıstica de Wald. Para o caso de parˆametro ´unico, a forma mais utilizada ´e

b ∼ N (β, τ−1). (2.41)

Se as vari´aveis resposta no modelo linear generalizado forem normalmente distribu´ıdas, ent˜ao 2.40 e 2.41 ser˜ao resultados exatos.

2.2.3.3 Estat´ıstica de raz˜ao da verossimilhan¸ca

Uma forma de avaliar se o modelo ´e adequado ´e a compara¸c˜ao dele com um modelo generalizado com um n´umero m´aximo de parˆametros que podem ser estimados, chamado de modelo saturado. Este ´e um modelo linear generalizado com a mesma distribui¸c˜ao e fun¸c˜ao de liga¸c˜ao do modelo de interesse.

Se existem N observa¸c˜oes, Yi, i = 1, . . . , N , todas com valores potencialmente

di-ferentes para o componente linear x>i β, ent˜ao um modelo saturado ´e definido com N parˆametros, sendo classificado como um modelo m´aximo ou cheio.

Se algumas das observa¸c˜oes tiverem o mesmo componente linear ou covari´avel padr˜ao, ou seja, elas correspondem `a mesma combina¸c˜ao de n´ıveis de fatores e tˆem os mesmos valores de qualquer vari´avel explicativa cont´ınua, elas s˜ao chamadas r´eplicas. Neste caso, o n´umero m´aximo de parˆametros que pode ser estimado para o modelo saturado ´e igual ao n´umero de componentes lineares potencialmente diferentes, que pode ser menor que

(25)

N .

Em geral, o n´umero m´aximo de parˆametros que pode ser estimado ´e denotado por m. O vetor de parˆametros para o modelo saturado ´e denotado por βmax e seu estima-dor de m´axima verossimilhan¸ca por bmax. A fun¸c˜ao de verossimilhan¸ca para o modelo saturado avaliado em bmax, L(bmax; y), ser´a maior do que qualquer outra fun¸c˜ao de verossimilhan¸ca para essas observa¸c˜oes, com a mesma distribui¸c˜ao e fun¸c˜ao de liga¸c˜ao assumidas, pois isso garante a mais completa descri¸c˜ao dos dados. Com o valor m´aximo da fun¸c˜ao de verossimilhan¸ca para o modelo de interesse denotado por L(b;y), a raz˜ao

de verossimilhan¸ca

λ = L(bmax; y)

L(b;y)

proporciona a ferramenta de avalia¸c˜ao do ajuste do modelo. O logaritmo da raz˜ao de verossimilhan¸ca ´e a diferen¸ca entre a fun¸c˜ao de log-verossimilhan¸ca usada na pr´atica como:

log λ = l(bmax; y) − l(b; y)

Grandes valores de log λ sugerem que o modelo de interesse ´e uma descri¸c˜ao pobre dos dados relacionados com o modelo saturado. Para determinar a regi˜ao cr´ıtica para o log λ, precisa-se de uma distribui¸c˜ao aleat´oria.

2.2.3.4 Distribui¸c˜ao amostral para a estat´ıstica deviance

A estat´ıstica deviance, tamb´em chamada de estat´ıstica log-verossimilhan¸ca (raz˜ao),

D = 2[l(bmax; y) − l(b, y)].

A partir de uma aproxima¸c˜ao da fun¸c˜ao de log-verossimilhan¸ca para um vetor de parˆametros β, que pode ser encontrada a partir da aproxima¸c˜ao por S´erie de Taylor, se b for o esti-mador de m´axima verossimilhan¸ca β (ent˜ao U (b) = 0), aproximadamente

l(β) − l(b) = −1 2(β − b) > τ (b)(β − b). Ent˜ao a estat´ıstica 2[l(b; y) − l(β; y)] = (β − b)>τ (b)(β − b),

(26)

A distribui¸c˜ao aleat´oria vinda desse resultado pode ser derivada: D = 2[l(bmax; y) − l(b, y)]

= 2[l(bmax; y) − l(βmax, y)]

−2[l(b; y) − l(β, y)] + 2[l(βmax; y) − l(β, y)]. (2.42)

O primeiro termo tem distribui¸c˜ao χ2(m), onde m ´e o n´umero de parˆametros do modelo

saturado. O segundo termo tem distribui¸c˜ao χ2(p) onde p ´e o n´umero de parˆametros do

modelo de interesse. O terceiro termo, v = 2[l(βmax; y) − l(β, y)] ´e a constante positiva que estar´a pr´oxima de zero se o modelo de interesse representar t˜ao bem os dados quanto o modelo saturado. Consequentemente a distribui¸c˜ao amostral da estat´ıstica deviance ser´a aproximadamente,

D ∼ χ2(m − p, v),

sendo v o parˆametro n˜ao centralizado. A estat´ıstica deviance forma a base da maior parte dos testes de hip´oteses para modelos lineares generalizados.

Se a vari´avel resposta Yi seguir uma distribui¸c˜ao Binomial, D pode ser calculado e

usado diretamente como avalia¸c˜ao de ajuste do modelo.

Exemplo 2.2.5. Estat´ıstica deviance para um modelo Binomial: Se as vari´aveis respostas Yi, . . . , YN s˜ao independentes e Yi ∼ Binomial(ni, πi), ent˜ao a fun¸c˜ao log-verossimilhan¸ca

´e l(β, y) = N X i=1 

yilog πi− yilog(1 − πi) + nilog(1 − πi) + log

ni

yi

 .

Para o modelo saturado, os π’s s˜ao todos diferentes ent˜ao β = [π1, . . . , πN]>. Os

esti-madores de m´axima verossimilhan¸ca s˜ao ˆπi = nyii ent˜ao o valor m´aximo da fun¸c˜ao

log-verossimilhan¸ca ´e l(bmax; y) =X  yilog  yi ni  − yilog  ni− yi ni  + nilog  ni− yi ni  + logni yi  . Para qualquer outro modelo com p < N parˆametros, os estimadores de m´axima veros-similhan¸ca ser˜ao denotados por ˆπi e o valores ajustados por ˆyi = niπˆi. Ent˜ao a fun¸c˜ao

log-verossimilhan¸ca avaliada com esses valores ´e

l(b; y) =X  yilog  ˆyi ni  − yilog  ni− ˆyi ni  + nilog  ni− ˆyi ni  + logni yi  .

(27)

Assim, a estat´ıstica deviance ´e D = 2[l(bmax; y) − l(b, y)] = 2 N X i=1  yilog  yi ˆ yi  + (ni− yi) log  ni− yi ni− ˆyi  . (2.43)

2.2.4

Crit´

erios para sele¸

ao de modelos

2.2.4.1 Teste de Wald de significˆancia individual

O teste de Wald ´e um teste de hip´oteses utilizado para verificar se a vari´avel ´e signifi-cativa para o modelo. A hip´otese nula ´e o parˆametro βj n˜ao tem efeito significativo para

o modelo, assim, a j-´esima vari´avel n˜ao ´e significativa para o modelo, e a alternativa ´e ser diferente de zero, indicando que o parˆametro βj tem efeito significativo para o modelo,

assim, a j-´esima vari´avel ´e significativa para o modelo. Ou seja,

(

H0 : βj = 0

H1 : βj 6= 0

A estat´ıstica de teste utilizada ´e W = ˆ β2 j ˆ V AR( ˆβj) ∼ χ2 1. (2.44)

Se o p-valor do teste for menor que o n´ıvel de significˆancia determinado para o trabalho (α = 0, 05), ent˜ao H0 ser´a rejeitado, ou seja, a vari´avel ´e significativa para o modelo, caso

contr´ario, H0 n˜ao ser´a rejeitada e a vari´avel ser´a desconsiderada do modelo por n˜ao ter

efeito estatisticamente significante.

2.2.4.2 Sele¸c˜ao autom´atica de vari´aveis

O software R possui um pacote para sele¸c˜ao autom´atica de vari´aveis e retornando o melhor ajuste de modelo, glmulti. V´arios modelos s˜ao ajustados e testados, utilizando o m´etodo Stepwise para sele¸c˜ao das vari´aveis e crit´erios de informa¸c˜ao de Akaike (AIC) para compara¸c˜ao dos modelos. Ler o artigo [?] para mais informa¸c˜oes.

(28)

2.2.4.3 Teste de comparabilidade de modelos

Ap´os realizar-se o ajuste dos modelos, realiza-se um teste de hip´oteses para a com-para¸c˜ao de dois a dois. Para esta compara¸c˜ao, os dois modelos devem ser aninhados ou hier´arquicos, isto ´e, com a mesma distribui¸c˜ao de probabilidade, a mesma fun¸c˜ao de liga¸c˜ao e, al´em disso, com o componente linear do modelo mais simples, M0, sendo um

caso especial do componente linear do modelo mais geral, M1.

Considere a hip´otese nula

H0 : β = β0 =     β1 .. . βq     ,

correspondendo ao modelo reduzido M0, e a hip´otese alternativa

H1 : β = β1 =     β1 .. . βp     ,

correspondendo ao modelo completo M1, com q < p < N . H0 pode ser testada contra H1

usando a diferen¸ca da estat´ıstica deviance

∆D = D0− D1 = 2[l(bmax; y) − l(b0; y)] − 2[l(bmax; y) − l(b1; y)]

= 2[l(b1; y) − l(b0; y)].

Se ambos os modelos descrevem bem os dados, ent˜ao D0 ∼ χ2(N − q) e D1 ∼ χ2(N − p)

de modo que ∆D ∼ χ2(p − q), assegurando que a condi¸c˜ao de independˆencia aconte¸ca.

Se o valor de ∆D for consistente com a distribui¸c˜ao χ2(p − q), o modelo escolhido ser´a o

M0 correspondendo a H0, pois ´e o mais simples.

Se o valor de ∆D estiver na regi˜ao cr´ıtica, ou seja, maior que (100 × α)% da cauda superior da distribui¸c˜ao χ2(p − q) ent˜ao H0 seria rejeitado em favor de H1 pelo fato do

modelo M1 ser significantemente melhor para descrever os dados (apesar deste tamb´em

poder n˜ao representar bem os dados).

Assim como no Teste de Wald, o p-valor tamb´em pode ser utilizado para chegar a decis˜ao de rejeitar ou n˜ao a hip´otese nula (H0).

(29)

2.2.5

Modelo de Regress˜

ao Log´ıstica

O modelo de regress˜ao log´ıstica (modelo log´ıstico ou logit ) ´e recomendado quando a vari´avel dependente ´e dicotˆomica (ou bin´aria), com as vari´aveis explicativas podendo ser categ´oricas ou n˜ao. Esse modelo ´e uma ferramenta que permite estimar a probabilidade de determinado evento acontecer a partir do conjunto de vari´aveis explicativas. Como a vari´avel dependente resulta de uma probabilidade π, assumindo os valores 0 ou 1 (com 0 representando o fracasso e 1 o sucesso), ent˜ao sua distribui¸c˜ao ´e de Bernoulli, e a sua fun¸c˜ao de probabilidade ´e:

f (y; π) = πy(1 − π)1−y = exp{log(πy(1 − π)1−y)}

= exp{y log(π) + log(1 − π) − y log(1 − π)}

= exp{y(log(π) − log(1 − π)) + log(1 − π)}

= exp  y log  π 1 − π  + log(1 − π)  , (2.45)

e logo ´e da fam´ılia exponencial. Note que a fun¸c˜ao est´a em sua forma canˆonica, pois a(y) = y, e a fun¸c˜ao do parˆametro natural b(π) = log 1−ππ  com os outros termos dados por c(π) = log(1 − π) e d(y) = 0.

O valor esperado da vari´avel dependente Y ´e

E(Y ) = 1 X y=0 yπy(1 − π)1−y = 0π0(1 − π)1−0+ 1π1(1 − π)1−1= π.

Observando-se a equa¸c˜ao 2.45, tem-se a partir da fun¸c˜ao do parˆametro natural que a fun¸c˜ao de liga¸c˜ao do modelo ´e

g(π) = log  π 1 − π  = x>β, (2.46)

(30)

o que tem como consequˆencia a probabilidade π ser fun¸c˜ao de x>β, sendo encontrada por: log  π 1 − π  = x>β π 1 − π = exp{x > β} π = exp{x>β} − π exp{x>β} π(1 + exp{x>β}) = exp{x>β} π = exp{x >β} 1 + exp{x>β}. (2.47)

O modelo linear log´ıstico simples logh πi

1−πi

i

= β1+ β2xi ´e um caso especial do modelo

de regress˜ao log´ıstica geral

logit πi = log  πi 1 − πi  = x>i β,

onde xi ´e o vetor das medidas correspondentes `as covari´aveis e vari´aveis dummy

cor-respondentes aos n´ıveis de fator e β ´e o vetor de parˆametros. Este modelo ´e usado para analisar dados com vari´aveis respostas bin´arias e muitas vari´aveis explicativas, fornecendo uma t´ecnica poderosa an´aloga a regress˜ao m´ultipla e ANOVA para respostas cont´ınuas.

Estimadores de m´axima verossimilhan¸ca de parˆametros β, e consequentemente de probabilidades πi = g(x>i β), s˜ao obtidos maximizando a fun¸c˜ao de log-verossimilhan¸ca

l(π; y) =

N

X

i=1



yilog πi+ (ni− yi) log(1 − πi) + log

ni

yi



. (2.48)

2.2.5.1 Estat´ıstica de qualidade de ajuste

Ao inv´es de usar a estima¸c˜ao de m´axima verossimilhan¸ca, pode-se usar a estima¸c˜ao dos parˆametros minimizando a soma ponderada dos quadrados

Sw = N X i=1 (yi− niπi)2 niπi(1 − πi) ,

(31)

ent˜ao E(Yi) = niπi e var(Yi) = niπi(1 − πi). Equivalente a minimizar a estat´ıstica

Chi-Quadrada de Pearson

X2 =X(o − e)

2

e ,

com o representando a frequˆencia observada na Tabela ??, e representando a frequˆencia esperada e o somat´orio sobre todas as 2 × N c´elulas da tabela. Sua demonstra¸c˜ao

X2 = N X i=1 (yi− niπi)2 niπi + N X i=1 [(n − i − yi) − ni(1 − πi)]2 ni(1 − πi) = N X i=1 (yi− niπi)2 niπi(1 − πi) (1 − πi+ πi) = Sw.

Quando X2 ´e avaliado na frequˆencia estimada, a estat´ıstica ´e

X2 = N X i=1 (yi− niˆπi)2 niπˆi(1 − ˆπi) , (2.49)

esta ´e assintoticamente equivalente a estat´ıstica deviance em 2.43,

D = 2 N X i=1  yilog  yi niπˆi  + (ni− yi) log  ni− yi ni− niπˆi  . (2.50)

A prova da rela¸c˜ao entre X2 e D usa a expans˜ao da s´erie de Taylor do s log s

t onde s = t, ou seja s log s t  = (s − t) + 1 2 (s − t)2 t + . . . .

Onde na primeira parcela da soma dentro do somat´orio em 2.50, tem-se yi = s e

niπˆi = t, j´a na segunda parcela, ni − yi = s e ni− niˆπi = t. Consequentemente D = 2 N X i=1 {(yi− niπˆi) + 1 2 (yi− niπˆi)2 niπˆi + [(ni− yi) − (ni− niπˆi)] +1 2 [(ni− yi) − (ni− niπˆi)]2 ni− niπˆi + . . .} ∼ = N X i=1 (yi − niπˆi)2 niπˆi(1 − ˆπi) = X2.

A distribui¸c˜ao assint´otica de D, sob a hip´otese de que o modelo ´e correto, ´e D ∼ χ2(N −p),

assim, aproximadamente X2 ∼ χ2(N − p). A escolha entre D e X2 depende da adequa¸c˜ao

(32)

amplamente melhor que D, pois esta ´e indevidamente influenciada por frequˆencias bem menores [12].

Em particular, se cada observa¸c˜ao tiver covari´avel padr˜ao diferente, ent˜ao yi ser´a

zero ou um, ent˜ao D e X2 ao v˜ao fornecer uma medida de qualidade ´util, o que pode

acontecer se a vari´avel explicativa for cont´ınua, por exemplo. Para este caso, a apro-xima¸c˜ao Hosmer e Lemeshow (1980) [13] ´e a mais utilizada. Nesta aproxima¸c˜ao, a ideia ´e agrupar as observa¸c˜oes em categorias baseadas nas suas probabilidades previstas. Em torno de 10 grupos s˜ao usados com n´umeros de observa¸c˜oes aproximadamente iguais em cada grupo. A quantidade de sucessos e fracassos observados em cada um dos g grupos s˜ao resumidos como apresentado na Tabela ??. Assim, a estat´ıstica Chi-Quadrado de Pearson para uma tabela g × 2 contingˆencia calculada e usada como medida de ajuste. A estat´ıstica Hosmer-Lemeshow ´e denotada como X2

HL. A distribui¸c˜ao amostral de

X2

HL ´e encontrada a partir de simula¸c˜ao para ser aproximada de χ2(g − 2).

A fun¸c˜ao de log-verossimilhan¸ca para modelos ajustados as vezes ´e comparada com a fun¸c˜ao de log-verossimilhan¸ca para modelos m´ınimos, em que todos os valores πi s˜ao

iguais (contrastando com o modelo saturado que ´e utilizado para defini¸c˜ao da estat´ıstica deviance). Sob o modelo m´ınimo,

˜

π = P yi P ni

 .

Tomando ˆπi para denotar a probabilidade estimada para Yi sob o modelo de interesse

(ent˜ao o valor ajustado ´e ˆyi = niπˆi). A estat´ıstica ´e definida por

C = 2[l(ˆπ; y) − l(˜π; y)],

com a fun¸c˜ao log-verossimilhan¸ca l dada por 2.48. Consequentemente

C = 2X  yilog  ˆ yi n˜πi  + (ni− yi) log  ni− ˆyi ni− niπ˜i  .

A sua distribui¸c˜ao amostral aproximada ´e χ2(p − 1) se todos os p parˆametros, exceto o

termo de intercepto βi, forem zero. C ´e tamb´em chamado de estat´ıstica Chi-Quadrado

de raz˜ao de verossimilhan¸ca.

Por analogia ao R2 para regress˜ao linear m´ultipla, outra estat´ıstica tamb´em utilizada,

o pseudo R2, ou R2 de Mc Fadden, ´e representado da seguinte forma

R2M F = 1 − l(ˆπ; y) l(˜π; y) → R 2 M F = l(˜π; y) − l(ˆπ; y) l(˜π; y) , 0 ≤ R 2 M F < 1

(33)

o qual representa a melhoria proporcional na fun¸c˜ao de log-verossimilhan¸ca devido aos termos do modelo de interesse, comparado ao modelo m´ınimo.

2.2.5.2 Res´ıduos

Para regress˜ao log´ıstica existem duas formas principais de res´ıduos correspondendo `

a medida de qualidade de ajuste D e X2. Se existir m covari´aveis padr˜oes diferentes,

ent˜ao m res´ıduos podem ser calculados. O n´umero de sucessos, denotado por Yk, nk o

n´umero de tentativas e ˆπk a probabilidade estimada de sucessos para a k-´esima covari´avel

padronizada.

Os res´ıduos de Pearson representados como Xk = (yk− nkπˆk) pnkπˆk(1 − ˆπk) , k = 1, . . . , m. (2.51) De 2.49, Pm k=1X 2

k = X2, a estat´ıstica de qualidade de ajuste Pearson chi-quadrado.

Res´ıduos da estat´ıstica deviance podem ser definidos similarmente,

dk = sign(yk− nkπˆk)  2  yklog  yk nkπˆk  + (nk− yk) log  nk− yk nk− nkπˆk 1/2 (2.52)

sendo que o termo sign(yk− nkπˆk) garante que dk tenha o mesmo sinal que Xk.

De 2.43, Pm

k=1d 2

k = D, a estat´ıstica deviance. Esses res´ıduos podem ser usados para

checar a adequa¸c˜ao do modelo. Por exemplo, eles poderiam ser plotados contra cada vari´avel explicativa do modelo para checar se a suposi¸c˜ao de linearidade ´e apropriada contra a possibilidade de outra vari´avel explicativa n˜ao inclu´ıda no modelo.

Se os dados s˜ao bin´arios, ou se ni ´e pequeno para a maioria das covari´aveis padr˜oes,

ent˜ao existem poucos valores distintos dos res´ıduos e a plotagem pode ser relativamente pouco informativa. Nesse caso, pode ser necess´ario confiar na qualidade de ajuste das estat´ısticas X2 e D e outros diagn´osticos.

Para mais detalhes sobre o uso dos res´ıduos para dados bin´arios e binomiais, recomenda-se a leitura do cap´ıtulo 5 de Collett(1991) [14].

2.2.5.3 Interpreta¸c˜ao dos coeficientes

A interpreta¸c˜ao dos coeficientes ´e dada atrav´es de uma medida de associa¸c˜ao, obtida comparando a probabilidade de sucesso com a probabilidade de fracasso [15], a raz˜ao de

(34)

chances ou odds ratio, denotada por ψ ou OR, e definida como: ψ = π(1)/[1 − π(1)] π(0)/[1 − π(0)], (2.53) e seu logaritmo ´e log(ψ) = log π(1)/[1 − π(1)] π(0)/[1 − π(0)]  = g(1) − g(0), (2.54)

onde π(x)/[1 − π(x)] ´e a chance da resposta quando x assume o valor de 0 ou 1 [16], e o seu logaritmo ´e dado por:

g(x) = log{π(x)/[1 − π(x)]}.

Tabela 1: Valores do Modelo de Regress˜ao log´ıstica quando a vari´avel independente ´e dicotˆomica

Vari´avel Vari´avel Independente X

Resposta Y x = 1 x = 0 y = 1 π(1) = exp(β0+β1) 1+exp(β0+β1) π(0) = exp(β0) 1+exp(β0) y = 0 1 − π(1) = 1+exp(β1 0+β1) 1 − π(0) = 1 1+exp(β0) Total 1 1

A partir da Tabela 1, a raz˜ao de chances ´e definida como:

ψ =  exp(β0+β1) 1+exp(β0+β1)  /1+exp(β1 0+β1)  h exp(β0) 1+exp(β0) i /h1+exp(β1 0) i = exp(β0+ β1) exp(β0) = exp(β1), (2.55) e o seu logaritmo ´e log(ψ) = log[exp(β1)] = β1.

Por exemplo, utilizando a presen¸ca ou ausˆencia de irregularidade como Y , e X como a vari´avel para a presen¸ca de uma fonte alternativa na residˆencia, sendo um valor estimado para ψ, como por exemplo, ˆψ = 3, este valor pode ser interpretado como a chance da residˆencia sem uma fonte alternativa possuir uma irregularidade ser trˆes vezes maior que a residˆencia que n˜ao possui uma fonte alternativa.

Sendo a vari´avel explicativa quantitativa, considera-se dois valores distintos da vari´avel, xi e xi+1. A chance da irregularidade existir entre os indiv´ıduos xi+1 em rela¸c˜ao aos

(35)

in-div´ıduos xi, pode ser analisada como:

βi > 0 ⇒ ψ > 1 ⇒ π(xi+1) > π(xi)

βi < 0 ⇒ ψ < 1 ⇒ π(xi+1) < π(xi)

Utilizando agora X como a vari´avel dias de atraso no pagamento da conta, se o valor de ˆ

ψ = exp(0, 68) = 1, 97, como ˆψ ´e maior que 1, a chance de existir uma irregularidade tende a aumentar quando aumentam os dias de atraso no pagamento da conta.

Outra forma de interpretar os coeficientes ´e atrav´es da varia¸c˜ao, Varia¸c˜ao = (ψ − 1) × 100.

Utilizando o ´ultimo exemplo com ˆψ = 1, 97 e varia¸c˜ao = (1, 97 − 1) × 100 = 97, ser´a interpretada da seguinte forma, a cada dia de atraso no pagamento da conta, aumenta em 97% a chance de existir uma irregularidade.

2.2.6

Avalia¸

ao da capacidade preditiva do modelo

Ap´os a sele¸c˜ao do modelo, deve-se avaliar a capacidade preditiva deste. Para isso, a Tabela 2, que representa os resultados do ajuste de um modelo de regress˜ao log´ıstico (valores estimados) e a classifica¸c˜ao real dos indiv´ıduos (valores observados) ´e utilizada. Tabela 2: Tabela de contingˆencia dos resultados do ajuste do modelo e os valores obser-vados

Valores observados

Valores Positivo Negativo

estimados (Y=1) (Y=0) Total

Positivo V P F P T P = V P + F Pˆ ( ˆY = 1) Negativo F N V N T N = F N + V Nˆ ( ˆY = 0) Total T P = V P + F N T N = F P + V N N

Considerando o contexto do problema, adota-se como sucesso a presen¸ca de irregula-ridade e fracasso a sua ausˆencia. Assim,

• V P (verdadeiro positivo): N´umero estimado de liga¸c˜oes irregulares quando as liga¸c˜oes s˜ao irregulares;

(36)

• F P (falso positivo): N´umero estimado de liga¸c˜oes irregulares quando as liga¸c˜oes n˜ao s˜ao irregulares;

• F N (falso negativo): N´umero estimado de liga¸c˜oes regulares quando as liga¸c˜oes s˜ao irregulares;

• V N (verdadeiro negativo): N´umero estimado de liga¸c˜oes regulares quando as liga¸c˜oes s˜ao regulares;

• T P (total estimado de positivos): N´ˆ umero total estimado de liga¸c˜oes irregulares; • T N (total estimado de negativos): N´ˆ umero total estimado de liga¸c˜oes regulares; • T P (total de positivos): N´umero total de liga¸c˜oes irregularidades;

• T N (total de positivos): N´umero total de liga¸c˜oes irregulares; • N (total): N´umero total de liga¸c˜oes.

2.2.6.1 Ponto de corte

Ap´os o seu ajuste, o modelo final ter´a como vari´avel resposta o logaritmo da chance da i-´esima liga¸c˜ao ter uma irregularidade, g(πi), vindo de 2.46. Assim, a liga¸c˜ao ser´a

classificada como regular ou irregular.

Um ponto de corte (t0) ser´a determinado para essa classifica¸c˜ao, de forma que:

g(πi) > t0 ⇒ ˆYi = 1

g(πi) ≤ t0 ⇒ ˆYi = 0

2.2.6.2 Sensibilidade

A sensibilidade (S) do modelo ´e definida como a probabilidade da liga¸c˜ao ser irregular (positivo) dado que a liga¸c˜ao realmente ´e irregular, representada por:

S = P ( ˆY = 1/Y = 1) = P ( ˆY = 1, Y = 1) P (Y = 1) = V P V P + F N = V P T P. (2.56)

(37)

2.2.6.3 Especificidade

A especificidade (E) do modelo ´e definida como a probabilidade da liga¸c˜ao ser regular (negativo) dado que a liga¸c˜ao ´e realmente regular, representada por:

E = P ( ˆY = 0/Y = 0) = P ( ˆY = 0, Y = 0) P (Y = 0) = F N F N + V N = V N T N. (2.57)

2.2.6.4 Acur´acia do modelo

A Taxa global de classifica¸c˜oes corretas, ou acur´acia (A), pode ser definida como a propor¸c˜ao de acertos do modelo em rela¸c˜ao ao real valor da vari´avel, ou seja, ´e a probabilidade do modelo acertar o real valor da vari´avel, desta forma:

A = P ( ˆY = Y ) = V P + V N

T P + T N =

V P + V N

N . (2.58)

2.2.6.5 Curva ROC

Uma forma mais eficiente de demonstrar a rela¸c˜ao entre a sensibilidade e a especi-ficidade ´e a Curva de Caracter´ısticas de Opera¸c˜ao do Receptor (Curva ROC - Receiver Operating Characteristic), uma ferramenta cujo objetivo ´e descrever quantitativamente o desempenho de um teste diagn´ostico ou avaliar a capacidade preditiva de um modelo.

A varia¸c˜ao do ponto de corte (t0) gera valores paras as taxas de verdadeiros

positi-vos (S) e de falsos positipositi-vos (1 − E), a partir dessa varia¸c˜ao, a curva ´e formada como representa¸c˜ao gr´afica dos pares (S; 1 − E), constru´ıda de forma que o eixo x corresponde a 1 − E e o eixo y a S [17], como pode ser visto na Figura 1.

O pacote ROCR do software R apresenta diversas fun¸c˜oes para constru¸c˜ao de Curva ROC. Para saber mais, consultar [?].

(38)

Figura 1: Curva ROC te´orica.

Para este trabalho, o melhor modelo, com melhor acur´acia, deve ter a sensibilidade e especificidade mais pr´oximos do valor 1, no gr´afico este seria representado no ponto (0,1), no canto superior esquerdo do gr´afico, por´em, esse cen´ario ideal dificilmente ser´a alcan¸cado. Assim, o ponto mais pr´oximo do canto superior esquerdo ´e considerado o ponto ideal.

A ´area abaixo da curva ROC ´e outra medida utilizada para analisar a qualidade da curva e o desempenho do modelo selecionado.

Como a curva ROC ´e estimada levando em considera¸c˜ao todos os valores de S e E relativos aos valores t0, a ´area abaixo da curva pode ser interpretada como a probabilidade

do modelo acertar o verdadeiro valor da vari´avel resposta. Um teste sem a capacidade de diferenciar uma liga¸c˜ao irregular de uma regular apresentar´a um ´area sob a curva de valor 0, 5, significando que S ´e igual a 1 − E. Quanto melhor o desempenho do modelo, mais a ´area se aproximar´a do valor 1, e mais pr´oxima do canto superior esquerdo estar´a a curva [18].

(39)

3

An´

alise dos Resultados

O banco de dados obtido originalmente possu´ıa 539876 registros, onde cada um cor-respondia a um cliente, e 17 vari´aveis:

• EMPRESA: ID da empresa a qual a liga¸c˜ao pertence; • ID CICLO: ID do ciclo a qual a liga¸c˜ao pertence;

• COMUNIDADE: Indica se a liga¸c˜ao encontra-se localizada em uma comunidade, • DESOC 12M: Informa se ocorreu impedimento de leitura do hidrˆometro referente a n˜ao ocupa¸c˜ao do im´ovel, pelo menos uma vez nos ´ultimos 12 meses, vari´avel bin´aria com “sim”= 1 e “n˜ao”= 0;

• SUSP FRAUDE 12M: Informa se ocorreu impedimento de leitura do hidrˆometro

referente a suspeita de fraude, pelo menos uma vez nos ´ultimos 12 meses, vari´avel bin´aria com “sim”= 1 e “n˜ao”= 0;

• CONMED REF519: Consumo de ´agua medido no mˆes de referˆencia utilizado no estudo;

• MEDIA CONMED 12M: M´edia de consumo de ´agua medido nos ´ultimos 12

meses;

• INFRACAO 12M: Informa se ocorreu notifica¸c˜ao ou auto de infra¸c˜ao pelo menos uma vez nos ´ultimos 12 meses, vari´avel bin´aria com “sim”= 1 e “n˜ao”= 0;

• FONTE ALTERNATIVA: Informa se o cliente possui ou n˜ao fonte alternativa

cadastrada, vari´avel bin´aria com “sim”= 1 e “n˜ao”= 0;

• CORTE 6M: Informa se ocorreu corte na liga¸c˜ao de ´agua nos ´ultimos 6 meses, vari´avel bin´aria com “sim”= 1 e “n˜ao”= 0;

(40)

• PERFIL PGTO 6M: Perfil de pagamento do cliente, baseado na m´edia da dife-ren¸ca entre a data de vencimento e de pagamento das contas nos ´ultimos 6 meses; • IMOVEL HABITADO: Informa se o im´ovel est´a habitado, vari´avel bin´aria com

“sim”= 1 e “n˜ao”= 0;

• DEM DESOC VAZIO: Informa se o im´ovel est´a desocupado, demolido ou ´e um terreno vazio, vari´avel bin´aria com “sim”= 1 e “n˜ao”= 0;

• FATOR TROCA HD: Fator de Troca do hidrˆometro da liga¸c˜ao;

• NAO PERMITIU OS 6M: Informa se o cliente n˜ao permitiu a execu¸c˜ao de al-gum servi¸co nos ´ultimos 6 meses, vari´avel bin´aria com “sim”= 1 e “n˜ao”= 0; • TESTE CLORO: Informa se teve algum resultado negativo no teste de cloro no

´

ultimos 6 meses, vari´avel bin´aria com “sim”= 1 e “n˜ao”= 0;

• IRREGULARIDADE: Informa se foi encontrada irregularidade na liga¸c˜ao no

mˆes de referˆencia, vari´avel bin´aria com “sim”= 1 e “n˜ao”= 0.

Uma tabela com resumo das vari´aveis iniciais do banco e suas descri¸c˜oes encontram-se no Anexo A.

Ap´os an´alise inicial do banco, alguns tratamentos foram realizados, como a reti-rada de NA’s, al´em disso, 3 vari´aveis foram desconsideradas, IMOVEL HABITADO por conter mais de 525 mil NA’s, NAO PERMITIU OS 6M por conter apenas um valor e

TESTE CLORO por acompanhar os valores de outra vari´avel do banco. Uma nova

vari´avel foi constru´ıda, DIF CONMED MED12M, calculada a partir da diferen¸ca en-tre o consumo medido no mˆes de referˆencia e a m´edia do consumo medido nos ´ultimos

12 meses, assim, as vari´aveis CONMED REF519 e MEDIA CONMED 12M tamb´em

fo-ram desconsideradas. Ap´os esse tratamento o banco foi reduzido para 2045 clientes e 13 vari´aveis, onde:

(41)

Tabela 3: Distribui¸c˜ao das liga¸c˜oes.

Empresa Sem irregularidade Com irregularidade Total

1 226 10 236 2 157 17 174 3 73 6 79 4 23 4 27 5 131 32 163 6 40 6 46 7 370 79 449 8 285 35 320 9 100 91 191 10 185 80 265 11 91 4 95 Total 1681 364 2045

Por meio do software R, utilizando o pacote caret [19], o banco foi dividido em duas amostras, uma para modelagem, com 1636 clientes e outra para teste do modelo final com 409 clientes, equivalentes a 80% e 20% do banco de dados, respectivamente, preservando aproximadamente a mesma propor¸c˜ao de liga¸c˜oes com e sem irregularidade do banco de dados inicial (82, 2% e 17, 8%, respectivamente), amostra de modelagem com 82, 3% e 17, 7% e amostra de teste com 81, 7% e 18, 3%.

Tabela 4: Amostras.

Banco Sem irregularidade Com irregularidade Total

Amostra de Modelagem 1347 289 1636

(42)

3.1

Modelo completo e Teste de Wald

Utilizando o amostra de treino para o ajuste do modelo, primeiramente foi obtido o modelo completo, com todas as vari´aveis, e partir deste foi realizado o Teste de Wald de significˆancia individual, a fim de identificar quais vari´aveis tˆem efeito significativo. Os seguintes valores de p-valor foram encontrados para cada vari´avel,

Tabela 5: Resultados do Teste de Wald.

Vari´avel p-valor

EMPRESA >0,01

ID CICLO >0,01

COMUNIDADE 0,01

DESOC 12M >0,01

SUSP FRAUDE 12M >0,01

DIF CONMED MED12M 0,15

INFRACAO 12M >0,01

FONTE ALTERNATIVA 0,08

CORTE 6M 0,12

PERFIL PGTO 6M 0,62

DEM DESOC VAZIO 0,02

FATOR TROCA HD 0,04

Observando os resultados do teste, pode-se identificar as vari´aveis que possuem p-valor menor que o n´ıvel de significˆancia de 5% (α = 0, 05), rejeitando a hip´otese nula, ou seja, s˜ao significativas. Assim, as seguintes vari´aveis foram escolhidas EMPRESA, ID CICLO,

COMUNIDADE, DESOC 12M, SUSP FRAUDE 12M, INFRACAO 12M, DEM DESOC VAZIO e FATOR TROCA HD e o modelo 1 foi obtido.

3.2

Sele¸

ao autom´

atica

Utilizando a sele¸c˜ao autom´atica, foi obtido o modelo 2, com as vari´aveis EM-PRESA, SUSP FRAUDE 12M, INFRACAO 12M, CORTE 6M, DEM DESOC VAZIO e FATOR TROCA HD.

3.3

Teste de comparabilidade de modelos

Realizando agora o Teste de comparabilidade de modelos, comparando o modelo com-pleto, o modelo 1 e o modelo 2, dois a dois, chegando aos seguintes resultados

(43)

Tabela 6: Resultados do Teste de comparabilidade de modelos.

M 0 M 1 p-valor Modelo mais adequado

Modelo 1 Modelo completo 0,1439 Modelo 1

Modelo 2 Modelo completo 0,001 Modelo completo

Modelo 2 Modelo 1 0,002 Modelo 1

A partir dos resultados encontrados, decide-se, com base no p-valor, que o modelo 1 ´e o mais adequado e portanto, foi escolhido para a realiza¸c˜ao do trabalho.

3.4

Capacidade preditiva do modelo

Para a avalia¸c˜ao da capacidade preditiva do modelo, o ponto de corte (t0) ´otimo foi

calculado utilizando a amostra de modelagem e para o seu c´alculo, o pacote ROCR foi utilizado, chegando assim a t0 = 0, 296.

Assim,

ˆ

Yi > t0 = 0, 296 ⇒ ˆYi = 1

ˆ

Yi ≤ t0 = 0, 296 ⇒ ˆYi = 0

A partir desse valor de t0, a capacidade preditiva do modelo ´e avaliada em um

pri-meiro momento aplicando o modelo 1 sobre a amostra de modelagem, calculando sua sensibilidade, especificidade e acur´acia. Os seguintes resultados foram encontrados

Tabela 7: Amostra de modelagem. Valores observados

Valores estimados Com irregularidade Sem irregularidade Total

Com irregularidade 229 39 268

Sem irregularidade 60 1308 1368

Total 289 1347 1636

A sensibilidade apresentou o valor de 79,24%, ou seja, essa ´e a taxa de classifica¸c˜ao correta do modelo para liga¸c˜oes com irregularidade na amostra de modelagem.

A especificidade apresentou o valor de 97,1%, ou seja, essa ´e a taxa de classifica¸c˜ao correta do modelo para liga¸c˜oes sem irregularidade na amostra de modelagem.

A acur´acia apresentou o valor de 93,9%, ou seja, o modelo classifica corretamente 93,9% das liga¸c˜oes.

(44)

a sensibilidade, especificidade, acur´acia e a ´area abaixo da curva. Tabela 8: Amostra de teste.

Valores observados

Valores estimados Com irregularidade Sem irregularidade Total

Com irregularidade 61 15 76

Sem irregularidade 14 319 333

Total 75 334 409

A sensibilidade apresentou o valor de 81,3%, ou seja, essa ´e a taxa de classifica¸c˜ao correta do modelo para liga¸c˜oes com irregularidade na amostra de modelagem.

A especificidade apresentou o valor de 95,5%, ou seja, essa ´e a taxa de classifica¸c˜ao correta do modelo para liga¸c˜oes sem irregularidade na amostra de modelagem.

A acur´acia apresentou o valor de 92,9%, ou seja, o modelo classifica corretamente 92,9% das liga¸c˜oes.

A curva ROC (Figura 2), relativa a amostra de teste, apresentou um valor da ´area abaixo da curva de AUC = 0,9343.

Figura 2: Curva ROC do modelo.

O valor de AU C encontrado indica que o modelo 1 tem um bom ajuste para repre-sentar os dados. Para completar a an´alise do modelo o R2 de Mc Fadden tamb´em foi

(45)

calculado, chegando ao seguinde valor

R2M F = 0, 6951. (3.1)

Indicando um melhoria proporcional de 69,5%, ou seja, o modelo 1 apresenta um ganho de 69,5% de informa¸c˜ao estimada em rela¸c˜ao ao modelo m´ınimo.

3.5

Interpreta¸

ao dos coeficientes

Para cada vari´avel foi calculada a raz˜ao de chances (OR) e sua varia¸c˜ao a partir das estimativas de seus coeficientes ( ˆβ), e s˜ao apresentados na Tabela 9. As vari´aveis EM-PRESA e ID CICLO n˜ao foram consideradas nessa se¸c˜ao por possu´ırem muitas categorias, as tabelas encontradas no Anexo B apresentam suas estimativas.

Tabela 9: Estimativas dos coeficientes e raz˜ao de chances.

Vari´avel βˆ OR Varia¸c˜ao

COMUNIDADE 0.60 1.83 82.76

DESOC 12M -0.36 0.70 -30.10

SUSP FRAUDE 12M 0.05 1.05 5.44

INFRACAO 12M 6.32 554.50 55349.60

DEM DESOC VAZIO -1.63 0.20 -80.38

FATOR TROCA HD -0.19 0.83 -17.29

A partir da Tabela 9 pode-se interpretar da seguinte forma,

• A localiza¸c˜ao da liga¸c˜ao em uma comunidade aumenta em 82,8% a chance de possuir uma irregularidade;

• A ocorrˆencia de impedimento de leitura do hidrˆometro referente a n˜ao ocupa¸c˜ao do im´ovel, pelo menos uma vez nos ´ultimos 12 meses, reduz em 30,1% a chance de possuir uma irregularidade;

• A ocorrˆencia de impedimento de leitura do hidrˆometro referente a suspeita de fraude, pelo menos uma vez nos ´ultimos 12 meses, aumenta em 5,4% a chance de possuir uma irregularidade;

• A ocorrˆencia de notifica¸c˜ao ou auto de infra¸c˜ao, pelo menos uma vez nos ´ultimos 12 meses, aumenta 554,5 vezes a chance de possuir irregularidade;

• O im´ovel estar desocupado, demolido ou um terreno vazio reduz em 80,4% a chance de possuir uma irregularidade;

(46)

• A cada uma unidade do Fator de Troca do hidrˆometro da liga¸c˜ao a chance de possuir uma irregularidade reduz em 17,3%.

3.6

Conclus˜

ao

Como uma grande parte do ´ındice de perda de ´agua hoje no setor Urbano ´e proveniente de vazamentos e irregularidades nas liga¸c˜oes de ´agua distribu´ıdas por toda a cidade, o combate `a elas tornou-se de grande importˆancia n˜ao apenas para a economia das empresas de distribui¸c˜ao como para a pr´opria popula¸c˜ao.

Com o intuito de diminuir essa perda, as empresas investem cada vez mais no combate a vazamentos e a identifica¸c˜ao de irregularidades, a partir desse cen´ario, um modelo foi ajustado utilizando t´ecnicas estat´ısticas, como modelo linear generalizado e curva ROC, com o aux´ılio do software R. A partir dessas t´ecnicas foram avaliadas vari´aveis existentes no banco de dados de clientes da empresa e assim foram determinadas quais teriam efeitos significativos para o modelo de identifica¸c˜ao de irregularidades.

Com os resultados atuais do modelo, acur´acia de 92,9%, a empresa precisaria mandar menos equipes `a rua em busca de irregularidades, teria os endere¸cos com maior chance de irregularidades, economizando assim, tempo e recursos. Redirecionando as equipes para outros tipos de servi¸cos, atendendo melhor a popula¸c˜ao, melhorando assim sua imagem no mercado e tornando o combate `a irregularidades mais eficiente.

(47)

Referˆ

encias

[1] MAGALH ˜AES, L. Crise h´ıdrica no Brasil. Accessado em 28-Fevereiro-2019. Dispon´ıvel em: <https://www.todamateria.com.br/crise-hidrica-no-brasil/>.

[2] BRASIL, T. Agua.´ Accessado em 28-Fevereiro-2019. Dispon´ıvel em:

<http://www.tratabrasil.org.br/saneamento/principais-estatisticas/no-brasil/agua>. [3] ASSEMAE. 46a Assembleia: redu¸c˜ao de perdas ser´a tema de mesa. 2016.

Acces-sado em 28-Fevereiro-2019. Dispon´ıvel em: <http://www.assemae.org.br/noticias- congresso/item/1460-46-assembleia-da-assemae-reducao-de-perdas-sera-tema-de-mesa>.

[4] BRASIL, T. Instituto trata brasil. Perdas de ´agua: novo estudo mostra as perdas nos sistemas de distribui¸c˜ao, a baixa evolu¸c˜ao desses indicadores e os grandes desafios para a solu¸c˜ao., 2015.

[5] BRASIL, T. Instituto trata brasil. Perdas de ´Agua - Desafios para Disponibilidade H´ıdrica e Avan¸co da Eficiˆencia do Saneamento B´asico, 2018.

[6] EOS, B. da. ATITUDES PARA REDUC¸ ˜AO DE PERDAS DE ´AGUA. Accessado

em 28-Fevereiro-2019. Dispon´ıvel em: <https://www.eosconsultores.com.br/reducao-de-perdas-de-agua/>.

[7] NELDER, J. A.; WEDDERBURN, R. W. Generalized linear models. Journal of the Royal Statistical Society: Series A (General), Wiley Online Library, v. 135, n. 3, p. 370–384, 1972.

[8] CORDEIRO, G. M.; DEM´ETRIO, C. G. Modelos lineares generalizados e extens˜oes. Sao Paulo, v. 33, 2008.

[9] DOBSON, A. J.; BARNETT, A. An introduction to generalized linear models. 2. ed. [S.l.]: Chapman and Hall/CRC, 2002.

[10] CHARNES, A.; FROME, E. L.; YU, P.-L. The equivalence of generalized least squa-res and maximum likelihood estimates in the exponential family. Journal of the Ame-rican Statistical Association, Taylor & Francis Group, v. 71, n. 353, p. 169–171, 1976. [11] R Core Team. R: A Language and Environment for Statistical Computing. Vienna,

Austria, 2019. Dispon´ıvel em: <https://www.R-project.org/>.

[12] CRESSIE, N.; READ, T. R. Pearson’s x2 and the loglikelihood ratio statistic g2: a comparative review. International Statistical Review/Revue Internationale de Statisti-que, JSTOR, p. 19–43, 1989.

(48)

[13] HOSMER, D. W.; LEMESHOW, S. Goodness of fit tests for the multiple logistic regression model. Communications in statistics-Theory and Methods, Taylor & Francis, v. 9, n. 10, p. 1043–1069, 1980.

[14] COLLETT, D. Modelling binary data. [S.l.]: Chapman and Hall/CRC, 1991.

[15] PAULA, G. A. Modelos de regress˜ao: com apoio computacional. [S.l.]: IME-USP S˜ao Paulo, 2004.

[16] SOUZA, ´E. C. d. An´alise de influˆencia local no modelo de regress˜ao log´ıstica. Tese (Doutorado) — Universidade de S˜ao Paulo, 2006.

[17] MARTINEZ, E. Z.; NETO, F. L.; PEREIRA, B. d. B. A curva roc para testes diagn´osticos. Cadernos de Sa´ude Coletiva, v. 11, n. 1, p. 7–31, 2003.

[18] PRATI, R. C. et al. Curvas roc para avalia¸c˜ao de classificadores. Revista IEEE Am´erica Latina, v. 6, n. 2, p. 215–222, 2008.

[19] Max Kuhn. The caret Package. [S.l.], 2019. Dispon´ıvel em:

(49)

ANEXO A -- Vari´

aveis iniciais

A Tabela abaixo apresenta as vari´aveis originais presentes no banco inicial utilizado neste estudo e suas descri¸c˜oes.

(50)

Tabela 10: Vari´aveis iniciais

Vari´avel C´odigo Vari´avel Descri¸c˜ao

Empresa EMPRESA ID da empresa que a liga¸c˜ao

per-tence.

Ciclo ID CICLO Ciclo da liga¸c˜ao.

Comunidade COMUNIDADE Liga¸c˜ao em comunidade “sim” ou

“n˜ao”. Ocorrˆencia de leitura

-ocupa¸c˜ao

DESOC 12M Informa se ocorreu

impedi-mento de leitura referente a n˜ao ocupa¸c˜ao do im´ovel nos ´ultimos 12 meses.

Ocorrˆencia de leitura -suspeita de fraude

SUSP FRAUDE 12M Informa se ocorreu suspeita de

fraude nos ´ultimos 12 meses.

Consumo medido CONMED REF519 Consumo medido na referˆencia

utilizada no estudo.

M´edia Consumo

me-dido

MEDIA CONMED 12M M´edia de consumo medido nos

´

ultimos 12 meses. Hist´orico de

noti-fica¸c˜ao ou auto de infra¸c˜ao

INFRACAO 12M Notifica¸c˜ao ou auto de infra¸c˜ao

nos ´ultimos 12 meses.

Fonte Alternativa FONTE ALTERNATIVA Cliente possui ou n˜ao fonte

alter-nativa cadastrada . Hist´orico de corte

exe-cutado

CORTE 6M Corte executado nos ´ultimos 6

meses. Perfil de pagamento

do cliente

PERFIL PGTO 6M M´edia de dias para o pagamento

das contas nos ´ultimos 6 meses. Situa¸c˜ao do im´ovel

-Leitura

IMOVEL HABITADO Im´ovel habitado.

Situa¸c˜ao do im´ovel -OS

DEM DESOC VAZIO Im´ovel desocupado, demolido ou

terreno vazio.

Fator de Troca do HD FATOR TROCA HD Fator de Troca para o hidrˆometro

da liga¸c˜ao.

Permiss˜ao de

execu¸c˜ao de OS

NAO PERMITIU OS 6M Cliente n˜ao permitiu a execu¸c˜ao

de algum servi¸co nos ´ultimos 6 meses.

Teste de cloro TESTE CLORO Resultado negativo para o teste

de cloro no ´ultimos 6 meses.

Irregularidade IRREGULARIDADE Existˆencia de irregularidade no

Referências

Documentos relacionados

Ainda segundo Gil (2002), como a revisão bibliográfica esclarece os pressupostos teóricos que dão fundamentação à pesquisa e às contribuições oferecidas por

A tabela 25 apresenta os resultados brutos desta avaliação em relação à característica busca e a tabela 26 exibe o resultado ponderado para esta característica.. A tabela 27

A estabilidade do corpo docente permanente permite atribuir o conceito muito bom, segundo os parâmetros da área, para o item 2.2 (pelo menos 75% dos docentes permanentes foram

O segundo Beneficiário será designado pelo Segurado na Proposta de Adesão, podendo ser substituído a qualquer tempo, mediante solicitação formal assinada pelo próprio Segurado, para

Analysis of relief and toponymy of the landscape based on the interpretation of the military topographic survey: Altimetry, Hypsometry, Hydrography, Slopes, Solar orientation,

A Embrapa Agrobiologia como parte de sua missão estratégica tem dado continuidade aos testes de campo com os rizóbios num projeto que envolve parcerias com a Embrapa sem

Com relação ao CEETEPS, o tema desta dissertação é interessante por se inserir no Programa de Educação de Jovens e Adultos (PROEJA), sob a tutela da Coordenação de

- Público-alvo: 1º, 2º, 3º Ciclo e Ensino secundário - Duração média: 90 minutos. -