Modelo de regressão logística para identificação de irregularidades em ligações de água

(1)

Modelo de Regress˜

ao Log´ıstica para

Identifica¸

c˜

ao de Irregularidades em Liga¸

c˜

oes

de ´

Agua

Niter´oi - RJ, Brasil 18 de Dezembro 2019

(2)

Victor Matias Galv˜

ao Vit´

oria

Modelo de Regress˜

ao Log´ıstica para

Identifica¸

c˜

ao de Irregularidades em

Liga¸

c˜

oes de ´

Agua

Trabalho de Conclus˜ao de Curso

Projeto Final II apresentado para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.

Orientador: Prof. Dr. Hugo Henrique Kegler dos Santos

Niter´oi - RJ, Brasil 18 de Dezembro 2019

(3)

Victor Matias Galv˜

ao Vit´

oria

Modelo de Regress˜

ao Log´ıstica para

Identifica¸

c˜

ao de Irregularidades em Liga¸

c˜

oes

de ´

Agua

Projeto Final II de Gradua¸cão sob o t´ıtulo “Modelo de Regressão Log´ıstica para Identifica¸cão de Irregularidades em Liga¸cões de Água”, defendida por Victor Matias Galvão Vitória em 18 de Dezembro 2019, na cidade de Niterói, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:

Prof. Dr. Hugo Henrique Kegler dos Santos Orientador Departamento de Estat´ıstica – UFF

Prof.a _Dr.a _{Karina Yuriko Yaginuma}

Departamento de Estat´ıstica – UFF

Prof. Dr. Luis Guillermo Coca Velarde Departamento de Estat´ıstica – UFF

(4)

Bibliotecário responsável: Ana Nogueira Braga - CRB7/4776

V845m Vitória, Victor Matias Galvão

Modelo de Regressão Logística para Identificação de Irregularidades em Ligações de Água / Victor Matias Galvão Vitória ; Hugo Henrique Kegler dos Santos, orientador. Niterói, 2019.

50 f. : il.

Trabalho de Conclusão de Curso (Graduação em

Estatística)-Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2019.

1. Regressão logística. 2. Produção intelectual.I.

Santos, Hugo Henrique Kegler dos, orientador. II. Universidade Federal Fluminense. Instituto de Matemática e Estatística. III. Título.

(5)

-O desperd´ıcio de água é um tema que vem sendo muito discutido e um dado preo-cupante para o Brasil, que viveu nos últimos anos uma das piores crises h´ıdricas da sua história. Várias pesquisas de métodos de combate ao desperd´ıcio de água estão sendo aplicados e novas técnicas estudadas por diversas empresas e órgãos do pa´ıs. Utilizando dados de uma empresa de saneamento básico, o presente trabalho tem como objetivo estudar e avaliar a associa¸cão entre algumas variáveis caracter´ısticas de clientes e assim identificar liga¸cões que possuem alguma irregularidade. O Modelo de Regressão Log´ıstica possui como variável resposta a chance (em escala logar´ıtmica) de um evento ocorrer, assim, ele foi utilizado para obter a chance de alguma liga¸cão possuir irregularidade.

Três modelos foram ajustados e o modelo escolhido possui uma taxa de acerto (acurácia) de 92, 9%. A partir desse modelo, a empresa poderá identificar mais facilmente as liga¸cões que possuem algum tipo de irregularidade, contribuindo para a redu¸cão do seu ´ındice de perda de água.

(6)

Ser aluno de uma Universidade federal não é uma tarefa fácil, chegar até o final é um caminho longo e cheio de obstáculos. Não conseguiria enfrentar esse árduo desafio sozinho.

Agrade¸co à minha fam´ılia e minha namorada por todo o apoio durante todos esses anos de estudo, sempre me dando for¸ca e nunca desistindo de acreditar no meu potencial. Aos amigos, que passaram pelas mesmas dificuldades ao meu lado, compartilhando os bons e maus momentos e também aos que apoiaram mesmo de longe, sempre desejando o melhor e transmitindo boas vibra¸cões.

A todos os professores, por todos os conselhos e ajuda durante todo o percurso, não só os da faculdade mas todos que passaram pela minha trajetória até aqui.

Aos colegas de trabalho que ajudaram com conselhos e ensinamentos também funda-mentais à minha forma¸cão.

Por fim, sou muito grato a todos que passaram pela minha vida em algum momento e que ajudaram de alguma forma nessa trajet´oria.

(7)

Lista de Figuras

Lista de Tabelas

1 Introdu¸c˜ao p. 10

2 Materiais e M´etodos p. 12

2.1 Base de Dados . . . p. 12 2.2 Modelos Lineares Generalizados (MLG) . . . p. 12 2.2.1 Fam´ılia exponencial . . . p. 13 2.2.1.1 Propriedades da Fam´ılia exponencial . . . p. 14 2.2.2 Fun¸cão Escore . . . p. 16 2.2.3 Estima¸cão dos Parâmetros do Modelo Linear Generalizado via

Máxima Verossimilhan¸ca . . . p. 17 2.2.3.1 Distribui¸cão amostral para estat´ıstica escore . . . p. 21 2.2.3.2 Distribui¸cão amostral para estimadores de máxima

ve-rossimilhan¸ca . . . p. 22 2.2.3.3 Estat´ıstica de razão da verossimilhan¸ca . . . p. 23 2.2.3.4 Distribui¸cão amostral para a estat´ıstica deviance . . . p. 24 2.2.4 Critérios para sele¸cão de modelos . . . p. 26 2.2.4.1 Teste de Wald de significância individual . . . p. 26 2.2.4.2 Sele¸cão automática de variáveis . . . p. 26 2.2.4.3 Teste de comparabilidade de modelos . . . p. 27

(8)

2.2.5.1 Estat´ıstica de qualidade de ajuste . . . p. 29 2.2.5.2 Res´ıduos . . . p. 32 2.2.5.3 Interpreta¸cão dos coeficientes . . . p. 32 2.2.6 Avalia¸cão da capacidade preditiva do modelo . . . p. 34 2.2.6.1 Ponto de corte . . . p. 35 2.2.6.2 Sensibilidade . . . p. 35 2.2.6.3 Especificidade . . . p. 36 2.2.6.4 Acurácia do modelo . . . p. 36 2.2.6.5 Curva ROC . . . p. 36

3 An´alise dos Resultados p. 38

3.1 Modelo completo e Teste de Wald . . . p. 41 3.2 Sele¸cão automática . . . p. 41 3.3 Teste de comparabilidade de modelos . . . p. 41 3.4 Capacidade preditiva do modelo . . . p. 42 3.5 Interpreta¸cão dos coeficientes . . . p. 44 3.6 Conclusão . . . p. 45

Referˆencias p. 46

Anexo A -- Vari´aveis iniciais p. 48

(9)

1 Curva ROC te´orica. . . p. 37 2 Curva ROC do modelo. . . p. 43

(10)

1 Valores do Modelo de Regress˜ao log´ıstica quando a vari´avel independente ´

e dicotˆomica . . . p. 33 2 Tabela de contingˆencia dos resultados do ajuste do modelo e os valores

observados . . . p. 34 3 Distribui¸cão das liga¸cões. . . p. 40 4 Amostras. . . p. 40 5 Resultados do Teste de Wald. . . p. 41 6 Resultados do Teste de comparabilidade de modelos. . . p. 42 7 Amostra de modelagem. . . p. 42 8 Amostra de teste. . . p. 43 9 Estimativas dos coeficientes e razão de chances. . . p. 44 10 Variáveis iniciais . . . p. 49 11 Estimativas dos coeficientes e razão de chances da variável EMPRESA. p. 50 12 Estimativas dos coeficientes e razão de chances da variável ID CICLO. p. 51

(11)

1 Introdu¸

c˜

ao

O Brasil iniciou o ano de 2019 enfrentando uma grande crise h´ıdrica, considerada a pior da história do pa´ıs. Essa crise se dá pela combina¸cão de vários fatores como a diminui¸cão do n´ıvel de chuvas, aumento do consumo e o desperd´ıcio [1]. A média nacional de perdas de água no Brasil alcan¸ca a taxa de 38,29% [2], levando em conta

que o Plano Nacional de Saneamento B´asico (PLANSAB) determinou como meta para

o Brasil redu¸cão das perdas para 31% na distribui¸cão até 2033 [3]. Em 2013 o Sistema Nacional de Informa¸cões sobre Saneamento (SNIS) apresentou dados que mostravam as perdas na distribui¸cão em 37% e as perdas financeiras totais em 39%, significando que esse percentual de recursos não entrava na receita do setor de saneamento básico. Essa perda foi equivalente a 6,53 bilhões de m3 de água não faturada pelas empresas, e perda financeira equivalente a 80% dos investimentos no setor em 2013 [4].

Segundo a ONU, a quantidade diária suficiente para atender as necessidades básicas de uma pessoa é de 110 litros, e de acordo com dados do Instituto Trata Brasil, no Brasil o consumo médio é de 154,1 litros por habitante/dia, 40% acima do recomendado [2]. A partir desse cenário, a perda de água tornou-se um assunto muito discutido, principal-mente para as empresas que realizam servi¸cos de saneamento no pa´ıs, que têm investido na preven¸cão e combate às perdas, com controle de pressão da água, monitoramento e agilidade no reparo de vazamentos, a¸cões para a troca de hidrômetros antigos e combate `

a fraudes, entre outros.

Perda de recurso h´ıdrico ocorre em qualquer processo de distribui¸cão e abastecimento de água no mundo, e pode ser classificada de duas formas: a perda real, que é associada a vazamentos, e a perda aparente, associada a erros de medi¸cão ou fraudes [5]. Toda a¸cão que tem como objetivo distorcer o real consumo de água do usuário (como liga¸cões clandestinas na rede de abastecimento, desvios de água antes de chegar ao hidrômetro, viola¸cões de cortes, altera¸cão no hidrômetro) [6] é considerada uma fraude. Essas a¸cões contribuem para o aumento do ´ındice de perda na rede pública de água, fazendo com que os consumidores regulares paguem a mais para compensar as perdas provenientes das

(12)

irregularidades, além de contaminar a rede pública e o meio ambiente, trazendo também impactos negativos à receita das empresas e aos investimentos necessários para o sanea-mento.

A deteçcão de fraudes e irregularidades tem se tornado um dos principais objetivos de empresas de vários setores econômicos, se tornando alvo de grande interesse no mercado. No caso das empresas do GRUPO, grupo de empresas concessionárias de saneamento básico, anteriormente, o combate à fraudes e irregularidades era feito de forma manual: observava-se o consumo de cada liga¸cão de água, buscando algum ind´ıcio de fraude, como uma diminui¸cão brusca do consumo de um mês para outro e enviando equipes para fis-caliza¸cão no local. Na fiscaliza¸cão, a equipe verifica o funcionamento do hidrômetro e procura irregularidades nele e no seu entorno, em alguns casos, um equipamento próprio, denominado geofone, que serve para escutar ru´ıdos na terra, é utilizado. Porém, este equipamento não é muito eficaz, por conta da deteçcão de outros ru´ıdos, como de carros passando pelo local, atrapalhando a inspe¸cão. Hoje já se utiliza outro método: através de um algoritmo, é gerada uma pontua¸cão para cada liga¸cão de água, e, a partir de uma nota de corte, é determinado se existe ou não uma irregularidade, e assim equipes são enviadas ao local para a devida fiscaliza¸cão. O resultado do novo método é melhor, mas ainda longe do ideal.

O objetivo principal deste trabalho é estudar os efeitos de caracter´ısticas de cada cliente da empresa, a fim de prever a existência de irregularidades na liga¸cão de água deste, e os objetivos secundários deste trabalho são: aprimorar as técnicas usadas na deteçcão de irregularidades, desenvolver um modelo de classifica¸cão de liga¸cões de água com irregularidade ou não, e comparar os modelos ajustados através de um critério de sele¸cão.

(13)

2 Materiais e M´

etodos

2.1 Base de Dados

A base utilizada para o estudo contém dados de 539876 clientes com 17 variáveis pro-venientes da base de dados do GRUPO, divididos entre suas 11 empresas concessionárias e distribu´ıdas pelos estados do RJ, SP e MG. Essas variáveis representam dados históricos de consumo dos clientes, assim como caracter´ısticas da liga¸cão e da sua localiza¸cão. O mês de referência utilizado foi Maio de 2019.

2.2 Modelos Lineares Generalizados (MLG)

O Modelo de Regressão Linear Simples (Análise de Regressão Linear) é uma técnica muito utilizada para analisar a rela¸cão entre duas variáveis, sendo uma explicativa e outra dependente (ou resposta), supondo-se que a variável dependente segue uma distribui¸cão normal. Essa suposi¸cão limita o uso desse modelo, surgindo, então, os Modelos Linea-res Generalizados (MLG), nos quais a normalidade não é mais necessária, sendo poss´ıvel utilizar outras distribui¸cões para a resposta. Introduzidos por Nelder e Wedderburn em 1972 [7], os MLG’s são uma união de diversas técnicas estat´ısticas já estudadas separa-damente. Um MLG envolve uma variável resposta univariada, um conjunto de variáveis explicativas e uma amostra aleatória de n observa¸cões independentes, sendo que:

i) a variável resposta, também chamada de variável dependente ou componente aleatório, segue distribui¸cão pertencente à fam´ılia exponencial.

ii) as variáveis explicativas, também chamadas de variáveis independentes entram na forma de um modelo linear, constituindo o componente sistemático do modelo; iii) a liga¸cão entre os componentes aleatório e sistemático é feita por meio de uma fun¸cão

(14)

2.2.1 Fam´ılia exponencial

Introduzida por Fisher, a fam´ılia exponencial de distribui¸cões reúne o conjunto de distribui¸cões nas quais são aplicados os modelos lineares generalizados [8].

A fam´ılia exponencial de distribui¸cões é caracterizada por uma fun¸cão de probabili-dade, ou de densiprobabili-dade, expressa na forma

f (y; θ) = s(y)t(θ) exp{a(y)b(θ)}, (2.1)

podendo ser reescrita na forma

f (y; θ) = exp{a(y)b(θ) + c(θ) + d(y)}, (2.2)

sendo s(y) = exp{d(y)} e t(θ) = exp{c(θ)}, θ o parâmetro de interesse e a(·), b(·), c(·) e d(·) fun¸cões reais conhecidas. Se a(y) = y, então é dito que a distribui¸cão está em sua forma canônica e b(θ) é chamado de parâmetro natural da distribui¸cão.

Diversas distribui¸cões conhecidas podem ser escritas na forma (2.2), sendo assim per-tencentes à fam´ılia exponencial, tais como: binomial, Poisson, exponencial, geométrica, normal, gama, dentre outras. A seguir, são mostrados três exemplos de como verificar se a fun¸cão pertence, ou não, à fam´ılia exponencial.

Exemplo 2.2.1. Considere a distribui¸c˜ao Normal com parˆametros µ e σ2 _{> 0, sendo µ o}

parâmetro de interesse, e fun¸cão distribui¸cão de probabilidade f (x; µ, σ2) = √ 1 2πσ2 exp −(x − µ)2 2σ2 . (2.3)

A fim de colocar a fun¸c˜ao de distribui¸c˜ao na forma exponencial, tem-se: f (x; µ, σ2) = exp xµ σ2 − x2 2σ2 − µ2 2σ2 − 1 2log(2πσ 2₎ , (2.4)

e assim, a fun¸cão distribui¸cão está em sua forma canônica, com a(x) = x, a fun¸cão do parâmetro natural b(µ) = _σµ2 e os outros termos como c(µ) = −

µ2 2σ2 − 1 2log(2πσ 2_{) e} d(x) = −_2σx22.

(15)

Exemplo 2.2.2. Considerando a distribui¸cão Poisson com parâmetro λ > 0, pode-se colocar a fun¸cão de distribui¸cão na forma exponencial:

f (x; λ) = e −λ λx x! = exp log e −λ λx x!

= exp{−λ + x log(λ) − log(x!)}

= exp{x log(λ) − λ − log(x!)}. (2.5)

Assim, a(x) = x, o que indica a forma canônica, a fun¸cão do parâmetro natural b(λ) = log(λ) e os outros termos como c(λ) = −λ e d(x) = − log(x!).

Exemplo 2.2.3. Considere a distribui¸cão Binomial com parâmetros n, número de ensaios independentes e 0 < p < 1, com fun¸cão de probabilidade

f (x; n, p) =n x px(1 − p)n−x= exp logn p px(1 − p)n−x = exp logn x

+ x log(p) + n log(1 − p) − x log(1 − p)

= exp

x(log(p) − log(1 − p)) + n log(1 − p) + logn x

. (2.6)

Observe que a fun¸cão está na forma canônica, com a(x) = x parâmetro natural, b(p) = log(p)−log(1−p) = log_1−pp e os outros termos como c(p) = n log(1−p) e d(x) = log n_x.

2.2.1.1 Propriedades da Fam´ılia exponencial

O valor esperado e a variância de a(y) podem ser obtidos a partir de resultados válidos nas opera¸cões para qualquer fun¸cão densidade de probabilidade na qual a ordem de integra¸cão e deriva¸cão possa ser trocada, temos

Z

(16)

Se a variável aleatória Y for discreta, a integral é substitu´ıda por um somatório. Derivando os dois lados da igualdade em 2.7 em rela¸cão a θ, obtém-se

d dθ

Z

f (y; θ)dy = d

dθ1 = 0.

Alterando a ordem de deriva¸cão e integra¸cão no primeiro termo, obtém-se

Z _d

dθf (y; θ)dy = 0. (2.8)

Derivando a equa¸cão 2.7 duas vezes em rela¸cão a θ e alterando a ordem de deriva¸cão e integra¸cão novamente, a seguinte equa¸cão é obtida

Z d2 dθ2f (y; θ)dy = 0. (2.9) Derivando a equa¸c˜ao 2.2, d dθf (y; θ) = [a(y)b 0_{(θ) + c}0_{(θ)]f (y; θ).} _(2.10)

e aplicando o resultado em 2.8, tem-se Z

[a(y)b0(θ) + c0(θ)]f (y; θ)dy = 0. (2.11)

Pela defini¸c˜ao do valor esperado, sabe-se queR a(y)f (y; θ)dy = E[a(y)], e R c0(θ)f (y; θ)dy = c0(θ) por 2.7. Ent˜ao,

Z

a(y)b0(θ)f (y; θ) + c0(θ)f (y; θ)dy = 0

b0(θ)E[a(y)] + c0(θ) = 0

E[a(y)] = −c

0_(θ)

b0_(θ). (2.12)

De forma similar, pode-se obter Var[a(y)]: d2

dθ2f (y; θ) = [a(y)b 00

(θ) + c00(θ)]f (y; θ) + [a(y)b0(θ) + c0(θ)]2f (y; θ).

Utilizando, 2.12, reescreve-se [a(y)b0(θ) + c0(θ)]2f (y; θ) como

(17)

e, pela equa¸c˜ao 2.9, obtem-se Z d2 dθ2f (y; θ) = b 00 (θ)E[a(y)] + c00(θ) + [b0(θ)]2var[a(y)] = 0. (2.13)

Uma vez que R {a(y) − E[a(y)]}2_{f (y; θ) = var[a(y)] por defini¸c˜}_{ao, aplica-se 2.12 em}

2.13, obtendo-se

var[a(y)] = b

00_(θ)c0_{(θ) − c}00_(θ)b0_(θ)

[b0_(θ)]3 . (2.14)

2.2.2 Fun¸

c˜

ao Escore

A fun¸cão escore é utilizada na inferência sobre os valores dos parâmetros em modelos lineares generalizados [9], e é definida como:

U (θ) = d

dθ`(θ; y), (2.15)

sendo `(θ; y) o logaritmo da fun¸cão de verossimilhan¸ca correspondente a uma única ob-serva¸cão no modelo. Assim, aplicando a forma 2.2, `(θ; y) é dado por:

`(θ; y) = a(y)b(θ) + c(θ) + d(y). (2.16)

Aplicando 2.16 em 2.15, tem-se

U (θ) = a(y)b0(θ) + c0(θ). (2.17)

A fun¸cão U (θ), denotada por U , também chamada de estat´ıstica escore, pode ser vista como uma variável aleatória, com valor esperado

E(U ) = b0(θ)E[a(y)] + c0(θ),

e aplicando 2.12, obt´em-se

E(U ) = b0(θ) −c 0_(θ) b0_(θ) + c0(θ) = 0. (2.18)

Além disso, variância de U, denominada informa¸cão e denotada como τ , é dada por τ = var(U ) = [b0(θ)]2var[a(y)],

(18)

o que, como consequˆencia de 2.14, resulta em: var(U ) = b 00_(θ)c0_(θ) b0_(θ) − c 00 (θ). (2.19)

Uma consequˆencia interessante ´e que

var(U ) = E(U )2 = −E(U0)

pois, dado o resultado geral

var(X) = E(X2) − [E(X)]2,

e como visto em 2.18, E(U ) = 0, então temos a primeira igualdade. A segunda é encon-trada a partir da derivada de U em rela¸cão a θ,

U0 = dU

dθ = a(y)b

00

(θ) + c00(θ).

Desta forma, a esperan¸ca de U ´e calculada da forma E(U0) = b00(θ)E[a(y)] + c00(θ) = b00(θ) −c 0_(θ) b0_(θ) + c00(θ) = −var(U ) = −τ, substituindo 2.12 e utilizando 2.19.

2.2.3 Estima¸

c˜

ao dos Parˆ

ametros do Modelo Linear

Generali-zado via M´

axima Verossimilhan¸

ca

O estimador de máxima verossimilhan¸ca, ˆθ, é a solu¸cão de U (θ) = 0 que é obtido a partir do método de aproxima¸cão de Newton-Raphson. A estima¸cão das ra´ızes de uma fun¸cão é descrita a seguir.

Deseja-se obter o valor de x na fun¸c˜ao t que corta o eixo x, onde t(x) = 0. Escolhendo-se uma aproxima¸c˜ao inicial x(0)_{, obt´}_{em-se aproxima¸c˜}_{oes resultantes x}(1)_{, x}(2)_{, x}(3)_{, ..., da}

(19)

seguinte forma: Dada a (m − 1)-ésima aproxima¸cão de x, a inclina¸cão de t neste ponto é dt dx x=x(m−1) = t0(x(m−1)) = t(x (m)_{) − t(x}(m−1)₎ x(m)_{− x}(m−1) , (2.20)

sendo a distˆancia x(m)− x(m−1) _{pequena. Se x}(m) _´_{e a solu¸c˜}_{ao desejada, ent˜}_{ao t(x}(m)_{) = 0,}

e assim, pode-se construir este ponto reescrevendo 2.20 como x(m)= x(m−1)− t(x

(m−1)₎

t0_(x(m−1)₎. (2.21)

Esta é a fórmula de Newton-Raphson para resolver t(x) = 0. Dando uma aproxima¸cão inicial x(0) _{seguida de aproxima¸c˜}_{oes resultantes de 2.21 at´}_{e o processo de itera¸c˜}_oes

conver-gir. Para a estima¸cão de máxima verossimilhan¸ca usando a fun¸cão escore 2.15, a equa¸cão de estima¸cão é equivalente a

θ(m) = θ(m−1)+ U

(m−1)

τ(m−1). (2.22)

Sejam Y1, . . . , Ynvari´aveis aleat´orias independentes que satisfa¸cam as propriedades do

modelo linear generalizado. Para estimar o vetor de parˆametros β relacionados com Yi’s

através da E(Yi) = µi e g(µi) = x>i β e para cada Yi a fun¸cão log-verossimilhan¸ca é

li = yib(θi) + c(θi) + d(yi), (2.23)

onde as fun¸cões b, c e d são definidas em 2.2. Além disso E(Yi) = µi = − c0(θi) b0_(θ i) , (2.24) var(Yi) = [b00(θi)c0(θi) − c00(θi)b0(θi)] [b0_(θ i)]3 , (2.25) e g(µi) = x>i β = ηi, (2.26)

sendo xi o vetor com elementos xij, j = 1, . . . , p.

A fun¸c˜ao log-verossimilhan¸ca para todo Yi’s ´e

l = N X i=1 li = N X i=1 yib(θi) + N X i=1 c(θi) + N X i=1 d(yi).

(20)

utili-zando a regra da cadeia: dl dβj = Uj = N X i=1 dl_i dβj = N X i=1 dl_i dθi .dθi dµi .dµi dβi . (2.27)

Para encontrar o resultado final de 2.27, considera-se cada termo de forma separada. O primeiro termo ´e encontrado derivando 2.23, isto ´e,

dli

dθi

= yib0(θi) + c0(θi) = b0(θi)(yi− µi),

e para encontrar o segundo termo, observa-se que dθi dµi = 1 dµi dθi , al´em do resultado de 2.25. Assim,

dµi dθi = −c 00_(θ i) b0_(θ i) +c 0_(θ i)b00(θi) [b0_(θ)]2 = b0(θi)var(Yi),

O ´ultimo termo ´e encontrado via2.26, ou seja, dµi dβj = dµi dηi .dηi dβj = dµi dηi xij.

Aplicando-se os trˆes resultados encontrados acima, tem-se que o escore Uj ´e

Uj = N X i=1 (yi− µi) var(Yi) xij dµi dηi . (2.28)

A matriz de variˆancia-covariˆancia de Uj’s tem termos τjk = E[UjUk], formando a

matriz de informa¸c˜ao τ . Assim, de 2.28, tem-se

τjk = E ( _N X i=1 (Yi− µi) var(Yi) xij dµi dηi N X l=1 (Yl− µl) var(Yl) xlk dµl dηl ) = N X i=1 E[(Yi− µi)2]xijxik [var(Yi)]2 dµi dηi 2 , (2.29)

(21)

E[(Yi− µi)2] = var(Yi), nota-se que 2.29 pode ser simplificada para τjk = N X i=1 xijxik var(Yi) dµ_i dηi 2 . (2.30)

A equa¸cão de estima¸cão 2.22 para o método de escore generalizado para

b(m) = b(m−1)+ [τ(m−1)]−1U(m−1), (2.31)

sendo b(m) o vetor de estimativas dos parâmetros β1, . . . , βp na m-ésima itera¸cão. Na

equa¸cão 2.31, [τ(m−1)]−1 é a inversa da matriz de informa¸cão com elementos τjk dado

por 2.30 e U(m−1) ´e o vetor de elementos dados por 2.28, todos avaliados em b(m−1). Multiplicando-se a equa¸c˜ao 2.31 por τ(m−1)_{, obt´}_em-se

τ(m−1)b(m) = τ(m−1)b(m−1)+ U(m−1). (2.32)

A partir de 2.30, τ pode ser escrita como τ = X>W X,

sendo W a diagonal N × N da matriz com elementos wii= 1 var(Yi) dµi dηi 2 . (2.33)

A express˜ao 2.32 ´e o vetor com elementos

p X k=1 N X i=1 xijxik var(Yi) dµi dηi 2 b(m−1)_k + N X i=1 (yi − µi)xij var(Yi) dµi dηi ,

avaliado em b(m−1), vindo das equa¸c˜oes 2.30 e 2.28. Portanto a equa¸c˜ao 2.32 pode ser escrita como

X>W z,

sendo os elementos de z dados por

zi = p X k=1 xikb (m−1) k + (yi− µi) dηi dµi , (2.34)

com µi e _dµdηi_i avaliados em b(m−1). Consequentemente, a equa¸c˜ao 2.32, pode ser escrita

como

(22)

Esta é a mesma forma das equa¸cões normal para modelos lineares obtidos por m´ınimos quadrados, exceto por esta ter que ser resolvida iterativamente, pois em geral, z e W dependem de b. Consequentemente para modelos lineares generalizados, estimadores de máxima verossimilhan¸ca são obtidos por uma itera¸cão por m´ınimos quadrados, apresentado por A. Charnes, E. L. Frome e P. L. Yu et. al [10].

A maior parte dos pacotes estat´ısticos que incluem processos de ajuste de modelos lineares generalizados tem um eficiente algoritmo baseado em 2.35. Eles come¸cam usando aproxima¸cões iniciais b(0) para avaliar z e W , então 2.35 é resolvida e b(1) é fornecida, a qual é utilizada para obter melhores aproxima¸cões para z e W , e seguindo assim até a convergência adequada ser alcan¸cada. Quando a diferen¸ca entre as consecutivas apro-xima¸cões b(m−1) e b(m) é suficientemente pequena, b(m) é considerada como a estimativa de máxima verosimilhan¸ca.

Neste trabalho, o ajuste dos modelos ´e feito utilizando o software R [11].

2.2.3.1 Distribui¸c˜ao amostral para estat´ıstica escore

Supondo Y1, . . . , YN vari´aveis aleat´orias independentes de um modelo linear

generali-zado com parˆametros β onde E(Yi) = µi e g(µi) = x>β = ηi. Vindo de 2.29, a estat´ıstica

escore ´e Uj = dl dβj = N X i=1 (Yi− µi) var(Yi) xij dµi dηi para j = 1, . . . , p.

Como E(Yi) = µi para todo i.

E(U ) = 0 para j = 1, . . . , p. (2.36)

A matriz de variância e covariância das estat´ısticas escore é a matriz informa¸cão τ com elementos

τjk = E[UjUk],

dada por 2.30.

Se existe apenas um parâmetro β, a estat´ıstica escore tem distribui¸cão amostral assintótica √U τ ∼ N (0, 1), ou de forma equivalente U2 τ ∼ χ 2_{(1), pois E(U ) = 0 e} var(U ) = τ .

Se existir um vetor de parˆametros β =     β1 .. . βp    

ent˜ao o vetor escore U =     U1 .. . Up     tem

(23)

a distribui¸c˜ao Normal multivariada U ∼ N (0, τ ), pelo menos assintoticamente, e assim, para grandes amostras

U>τ−1U ∼ χ2(p) (2.37)

Exemplo 2.2.4. Estat´ıstica escore para distribui¸cão Binomial. Se Y ∼ Binomial(n, π) a fun¸cão log-verossimilhan¸ca é

l(π; y) = y log(π) + (n − y) log(1 − π) + logn y

ent˜ao a estat´ıstica escore ´e

U = dl dπ = Y π − n − Y 1 − π = Y − nπ π(1 − π).

Como E(Y ) = nπ, ent˜ao, tem-se que E(U ) = 0, e al´em disso, var(Y ) = nπ(1 − π), implicando em

τ = var(U ) = 1

π2_{(1 − π)}2var(Y ) =

n π(1 − π), e, como consequˆencia, tem-se aproximadamente

U √

τ =

Y − nπ

pnπ(1 − π) ∼ N (0, 1).

Esta é a aproxima¸cão para distribui¸cão Normal usada para encontrar os intervalos de confian¸ca e testar hipóteses para π.

2.2.3.2 Distribui¸cão amostral para estimadores de máxima verossimilhan¸ca A partir da aproxima¸cão por Série de Taylor, tem-se que para a fun¸cão escore de parâmetro único β, os dois primeiros termos da aproxima¸cão próxima da estimativa de b é dada por

U (β) = U (b) + (β − b)U0(b).

Se U0 ´e aproximado por E(U0) = −τ , obt´em-se

U (β) = U (b) − (β − b)τ (b). A expressão correspondente para o vetor de parâmetros β é

U (β) = U (b) − τ (b)(β − b), (2.38)

podendo ser utilizada para obter a distribui¸cão amostral do estimador de máxima veros-similhan¸ca b = ˆβ. Por defini¸cão, b é o estimador que maximiza l(b), e assim U (b) = 0.

(24)

Ent˜ao,

U (β) = −τ (b)(β − b), ou de forma equivalente,

(b − β) = τ−1U ,

sendo τ n˜ao singular.

Se τ é considerada como constante, então E(b − β) = 0, pois E(U ) a partir da equa¸cão 2.36. Então, assintoticamente, E(b) = β, assim, b é estimador consistente para β e a matriz de variância-covariância para b é

E[(b − β)(b − β)>] = τ−1E(U U>)τ = τ>, (2.39)

pois τ = E(U U>) e (τ−1)> = τ−1, como τ é simétrica. A distribui¸cão amostral as-sintótica para b é

(b − β)>τ (b)(b − β) ∼ χ2(p). (2.40)

Esta é a Estat´ıstica de Wald. Para o caso de parâmetro único, a forma mais utilizada é

b ∼ N (β, τ−1). (2.41)

Se as variáveis resposta no modelo linear generalizado forem normalmente distribu´ıdas, então 2.40 e 2.41 serão resultados exatos.

2.2.3.3 Estat´ıstica de raz˜ao da verossimilhan¸ca

Uma forma de avaliar se o modelo é adequado é a compara¸cão dele com um modelo generalizado com um número máximo de parâmetros que podem ser estimados, chamado de modelo saturado. Este é um modelo linear generalizado com a mesma distribui¸cão e fun¸cão de liga¸cão do modelo de interesse.

Se existem N observa¸c˜oes, Yi, i = 1, . . . , N , todas com valores potencialmente

di-ferentes para o componente linear x>_i β, então um modelo saturado é definido com N parâmetros, sendo classificado como um modelo máximo ou cheio.

Se algumas das observa¸cões tiverem o mesmo componente linear ou covariável padrão, ou seja, elas correspondem à mesma combina¸cão de n´ıveis de fatores e têm os mesmos valores de qualquer variável explicativa cont´ınua, elas são chamadas réplicas. Neste caso, o número máximo de parâmetros que pode ser estimado para o modelo saturado é igual ao número de componentes lineares potencialmente diferentes, que pode ser menor que

(25)

N .

Em geral, o número máximo de parâmetros que pode ser estimado é denotado por m. O vetor de parâmetros para o modelo saturado ´_{e denotado por βmax e seu} estima-dor de m´_{axima verossimilhan¸ca por bmax. A fun¸cão de verossimilhan¸ca para o modelo} saturado avaliado em bmax, L(bmax; y), será maior do que qualquer outra fun¸cão de verossimilhan¸ca para essas observa¸cões, com a mesma distribui¸cão e fun¸cão de liga¸cão assumidas, pois isso garante a mais completa descri¸cão dos dados. Com o valor máximo da fun¸cão de verossimilhan¸ca para o modelo de interesse denotado por L(b;y), a razão

de verossimilhan¸ca

λ = L(bmax; y)

L(b;y)

proporciona a ferramenta de avalia¸cão do ajuste do modelo. O logaritmo da razão de verossimilhan¸ca é a diferen¸ca entre a fun¸cão de log-verossimilhan¸ca usada na prática como:

log λ = l(bmax; y) − l(b; y)

Grandes valores de log λ sugerem que o modelo de interesse é uma descri¸cão pobre dos dados relacionados com o modelo saturado. Para determinar a região cr´ıtica para o log λ, precisa-se de uma distribui¸cão aleatória.

2.2.3.4 Distribui¸c˜ao amostral para a estat´ıstica deviance

A estat´ıstica deviance, tamb´em chamada de estat´ıstica log-verossimilhan¸ca (raz˜ao),

D = 2[l(bmax; y) − l(b, y)].

A partir de uma aproxima¸cão da fun¸cão de log-verossimilhan¸ca para um vetor de parâmetros β, que pode ser encontrada a partir da aproxima¸cão por Série de Taylor, se b for o esti-mador de máxima verossimilhan¸ca β (então U (b) = 0), aproximadamente

l(β) − l(b) = −1 2(β − b) > τ (b)(β − b). Ent˜ao a estat´ıstica 2[l(b; y) − l(β; y)] = (β − b)>τ (b)(β − b),

(26)

A distribui¸c˜ao aleat´oria vinda desse resultado pode ser derivada: D = 2[l(bmax; y) − l(b, y)]

= 2[l(bmax; y) − l(βmax, y)]

−2[l(b; y) − l(β, y)] + 2[l(βmax; y) − l(β, y)]. (2.42)

O primeiro termo tem distribui¸c˜ao χ2_{(m), onde m ´}_{e o n´}_{umero de parˆ}_{ametros do modelo}

saturado. O segundo termo tem distribui¸c˜ao χ2_{(p) onde p ´}_{e o n´}_{umero de parˆ}_{ametros do}

modelo de interesse. O terceiro termo, v = 2[l(βmax; y) − l(β, y)] é a constante positiva que estará próxima de zero se o modelo de interesse representar tão bem os dados quanto o modelo saturado. Consequentemente a distribui¸cão amostral da estat´ıstica deviance será aproximadamente,

D ∼ χ2(m − p, v),

sendo v o parâmetro não centralizado. A estat´ıstica deviance forma a base da maior parte dos testes de hipóteses para modelos lineares generalizados.

Se a vari´avel resposta Yi seguir uma distribui¸c˜ao Binomial, D pode ser calculado e

usado diretamente como avalia¸c˜ao de ajuste do modelo.

Exemplo 2.2.5. Estat´ıstica deviance para um modelo Binomial: Se as variáveis respostas Yi, . . . , YN são independentes e Yi ∼ Binomial(ni, πi), então a fun¸cão log-verossimilhan¸ca

´e l(β, y) = N X i=1

yilog πi− yilog(1 − πi) + nilog(1 − πi) + log

ni

yi

.

Para o modelo saturado, os π’s s˜ao todos diferentes ent˜ao β = [π1, . . . , πN]>. Os

esti-madores de máxima verossimilhan¸ca são ˆπi = _nyi_i então o valor máximo da fun¸cão

log-verossimilhan¸ca é l(bmax; y) =X yilog yi ni − yilog ni− yi ni + nilog ni− yi ni + logni yi . Para qualquer outro modelo com p < N parâmetros, os estimadores de máxima veros-similhan¸ca serão denotados por ˆπi e o valores ajustados por ˆyi = niπî. Então a fun¸cão

log-verossimilhan¸ca avaliada com esses valores ´e

l(b; y) =X yilog ˆyi ni − yilog n_i− ˆyi ni + nilog n_i− ˆyi ni + logni yi .

(27)

Assim, a estat´ıstica deviance ´e D = 2[l(bmax; y) − l(b, y)] = 2 N X i=1 yilog y_i ˆ yi + (ni− yi) log n_i− yi ni− ˆyi . (2.43)

2.2.4 Crit´

erios para sele¸

c˜

ao de modelos

2.2.4.1 Teste de Wald de significˆancia individual

O teste de Wald é um teste de hipóteses utilizado para verificar se a variável é signifi-cativa para o modelo. A hipótese nula é o parâmetro βj não tem efeito significativo para

o modelo, assim, a j-ésima variável não é significativa para o modelo, e a alternativa é ser diferente de zero, indicando que o parâmetro βj tem efeito significativo para o modelo,

assim, a j-ésima variável é significativa para o modelo. Ou seja,

(

H0 : βj = 0

H1 : βj 6= 0

A estat´ıstica de teste utilizada ´e W = ˆ β2 j ˆ V AR( ˆβj) ∼ χ2 1. (2.44)

Se o p-valor do teste for menor que o n´ıvel de significância determinado para o trabalho (α = 0, 05), então H0 será rejeitado, ou seja, a variável é significativa para o modelo, caso

contrário, H0 não será rejeitada e a variável será desconsiderada do modelo por não ter

efeito estatisticamente significante.

2.2.4.2 Sele¸cão automática de variáveis

O software R possui um pacote para sele¸cão automática de variáveis e retornando o melhor ajuste de modelo, glmulti. Vários modelos são ajustados e testados, utilizando o método Stepwise para sele¸cão das variáveis e critérios de informa¸cão de Akaike (AIC) para compara¸cão dos modelos. Ler o artigo [?] para mais informa¸cões.

(28)

2.2.4.3 Teste de comparabilidade de modelos

Após realizar-se o ajuste dos modelos, realiza-se um teste de hipóteses para a com-para¸cão de dois a dois. Para esta compara¸cão, os dois modelos devem ser aninhados ou hierárquicos, isto é, com a mesma distribui¸cão de probabilidade, a mesma fun¸cão de liga¸cão e, além disso, com o componente linear do modelo mais simples, M0, sendo um

caso especial do componente linear do modelo mais geral, M1.

Considere a hip´otese nula

H0 : β = β0 =     β1 .. . βq     ,

correspondendo ao modelo reduzido M0, e a hip´otese alternativa

H1 : β = β1 =     β1 .. . βp     ,

correspondendo ao modelo completo M1, com q < p < N . H0 pode ser testada contra H1

usando a diferen¸ca da estat´ıstica deviance

∆D = D0− D1 = 2[l(bmax; y) − l(b0; y)] − 2[l(bmax; y) − l(b1; y)]

= 2[l(b1; y) − l(b0; y)].

Se ambos os modelos descrevem bem os dados, ent˜ao D0 ∼ χ2(N − q) e D1 ∼ χ2(N − p)

de modo que ∆D ∼ χ2_{(p − q), assegurando que a condi¸c˜}_{ao de independˆ}_{encia aconte¸ca.}

Se o valor de ∆D for consistente com a distribui¸c˜ao χ2_{(p − q), o modelo escolhido ser´}_{a o}

M0 correspondendo a H0, pois ´e o mais simples.

Se o valor de ∆D estiver na região cr´ıtica, ou seja, maior que (100 × α)% da cauda superior da distribui¸cão χ2(p − q) então H0 seria rejeitado em favor de H1 pelo fato do

modelo M1 ser significantemente melhor para descrever os dados (apesar deste tamb´em

poder n˜ao representar bem os dados).

Assim como no Teste de Wald, o p-valor também pode ser utilizado para chegar a decisão de rejeitar ou não a hipótese nula (H0).

(29)

2.2.5 Modelo de Regress˜

ao Log´ıstica

O modelo de regressão log´ıstica (modelo log´ıstico ou logit ) é recomendado quando a variável dependente é dicotômica (ou binária), com as variáveis explicativas podendo ser categóricas ou não. Esse modelo é uma ferramenta que permite estimar a probabilidade de determinado evento acontecer a partir do conjunto de variáveis explicativas. Como a variável dependente resulta de uma probabilidade π, assumindo os valores 0 ou 1 (com 0 representando o fracasso e 1 o sucesso), então sua distribui¸cão é de Bernoulli, e a sua fun¸cão de probabilidade é:

f (y; π) = πy(1 − π)1−y = exp{log(πy(1 − π)1−y)}

= exp{y log(π) + log(1 − π) − y log(1 − π)}

= exp{y(log(π) − log(1 − π)) + log(1 − π)}

= exp y log π 1 − π + log(1 − π) , (2.45)

e logo é da fam´ılia exponencial. Note que a fun¸cão está em sua forma canônica, pois a(y) = y, e a fun¸cão do parâmetro natural b(π) = log _1−ππ com os outros termos dados por c(π) = log(1 − π) e d(y) = 0.

O valor esperado da vari´avel dependente Y ´e

E(Y ) = 1 X y=0 yπy(1 − π)1−y = 0π0(1 − π)1−0+ 1π1(1 − π)1−1= π.

Observando-se a equa¸cão 2.45, tem-se a partir da fun¸cão do parâmetro natural que a fun¸cão de liga¸cão do modelo é

g(π) = log π 1 − π = x>β, (2.46)

(30)

o que tem como consequˆencia a probabilidade π ser fun¸c˜ao de x>β, sendo encontrada por: log π 1 − π = x>β π 1 − π = exp{x > β} π = exp{x>β} − π exp{x>β} π(1 + exp{x>β}) = exp{x>β} π = exp{x >_β} 1 + exp{x>_β}. (2.47)

O modelo linear log´ıstico simples logh πi

1−πi

i

= β1+ β2xi ´e um caso especial do modelo

de regress˜ao log´ıstica geral

logit πi = log πi 1 − πi = x>_i β,

onde xi é o vetor das medidas correspondentes às covariáveis e variáveis dummy

cor-respondentes aos n´ıveis de fator e β é o vetor de parâmetros. Este modelo é usado para analisar dados com variáveis respostas binárias e muitas variáveis explicativas, fornecendo uma técnica poderosa análoga a regressão múltipla e ANOVA para respostas cont´ınuas.

Estimadores de máxima verossimilhan¸ca de parâmetros β, e consequentemente de probabilidades πi = g(x>_i β), são obtidos maximizando a fun¸cão de log-verossimilhan¸ca

l(π; y) =

N

X

i=1

yilog πi+ (ni− yi) log(1 − πi) + log

ni

yi

. (2.48)

2.2.5.1 Estat´ıstica de qualidade de ajuste

Ao invés de usar a estima¸cão de máxima verossimilhan¸ca, pode-se usar a estima¸cão dos parâmetros minimizando a soma ponderada dos quadrados

Sw = N X i=1 (yi− niπi)2 niπi(1 − πi) ,

(31)

ent˜ao E(Yi) = niπi e var(Yi) = niπi(1 − πi). Equivalente a minimizar a estat´ıstica

Chi-Quadrada de Pearson

X2 =X(o − e)

2

e ,

com o representando a frequência observada na Tabela ??, e representando a frequência esperada e o somatório sobre todas as 2 × N células da tabela. Sua demonstra¸cão

X2 = N X i=1 (yi− niπi)2 niπi + N X i=1 [(n − i − yi) − ni(1 − πi)]2 ni(1 − πi) = N X i=1 (yi− niπi)2 niπi(1 − πi) (1 − πi+ πi) = Sw.

Quando X2 é avaliado na frequência estimada, a estat´ıstica é

X2 = N X i=1 (yi− niˆπi)2 niπˆi(1 − ˆπi) , (2.49)

esta ´e assintoticamente equivalente a estat´ıstica deviance em 2.43,

D = 2 N X i=1 yilog yi niπˆi + (ni− yi) log ni− yi ni− niπˆi . (2.50)

A prova da rela¸c˜ao entre X2 _{e D usa a expans˜}_{ao da s´}_{erie de Taylor do s log} s

t onde s = t, ou seja s log s t = (s − t) + 1 2 (s − t)2 t + . . . .

Onde na primeira parcela da soma dentro do somat´orio em 2.50, tem-se yi = s e

niπî = t, já na segunda parcela, ni − yi = s e ni− niˆπi = t. Consequentemente D = 2 N X i=1 {(yi− niπî) + 1 2 (yi− niπî)2 niπî + [(ni− yi) − (ni− niπî)] +1 2 [(ni− yi) − (ni− niπî)]2 ni− niπî + . . .} ∼ = N X i=1 (yi − niπî)2 niπî(1 − ˆπi) = X2.

A distribui¸cão assintótica de D, sob a hipótese de que o modelo é correto, é D ∼ χ2_{(N −p),}

assim, aproximadamente X2 ∼ χ2_{(N − p). A escolha entre D e X}2 _{depende da adequa¸c˜}_ao

(32)

amplamente melhor que D, pois esta ´e indevidamente influenciada por frequˆencias bem menores [12].

Em particular, se cada observa¸cão tiver covariável padrão diferente, então yi será

zero ou um, ent˜ao D e X2 _n˜_{ao v˜}_{ao fornecer uma medida de qualidade ´}_{util, o que pode}

acontecer se a variável explicativa for cont´ınua, por exemplo. Para este caso, a apro-xima¸cão Hosmer e Lemeshow (1980) [13] é a mais utilizada. Nesta aproxima¸cão, a ideia é agrupar as observa¸cões em categorias baseadas nas suas probabilidades previstas. Em torno de 10 grupos são usados com números de observa¸cões aproximadamente iguais em cada grupo. A quantidade de sucessos e fracassos observados em cada um dos g grupos são resumidos como apresentado na Tabela ??. Assim, a estat´ıstica Chi-Quadrado de Pearson para uma tabela g × 2 contingência calculada e usada como medida de ajuste. A estat´ıstica Hosmer-Lemeshow é denotada como X2

HL. A distribui¸c˜ao amostral de

X2

HL ´e encontrada a partir de simula¸c˜ao para ser aproximada de χ2(g − 2).

A fun¸cão de log-verossimilhan¸ca para modelos ajustados as vezes é comparada com a fun¸cão de log-verossimilhan¸ca para modelos m´ınimos, em que todos os valores πi são

iguais (contrastando com o modelo saturado que ´e utilizado para defini¸c˜ao da estat´ıstica deviance). Sob o modelo m´ınimo,

˜

π = P yi P ni

.

Tomando ˆπi para denotar a probabilidade estimada para Yi sob o modelo de interesse

(então o valor ajustado é ˆyi = niπî). A estat´ıstica é definida por

C = 2[l(ˆπ; y) − l(˜π; y)],

com a fun¸c˜ao log-verossimilhan¸ca l dada por 2.48. Consequentemente

C = 2X yilog ˆ yi n˜πi + (ni− yi) log ni− ˆyi ni− niπ˜i .

A sua distribui¸c˜ao amostral aproximada ´e χ2_{(p − 1) se todos os p parˆ}_{ametros, exceto o}

termo de intercepto βi, forem zero. C ´e tamb´em chamado de estat´ıstica Chi-Quadrado

de raz˜ao de verossimilhan¸ca.

Por analogia ao R2 _{para regress˜}_{ao linear m´}_{ultipla, outra estat´ıstica tamb´}_{em utilizada,}

o pseudo R2, ou R2 de Mc Fadden, ´e representado da seguinte forma

R2_{M F} = 1 − l(ˆπ; y) l(˜π; y) → R 2 M F = l(˜π; y) − l(ˆπ; y) l(˜π; y) , 0 ≤ R 2 M F < 1

(33)

o qual representa a melhoria proporcional na fun¸c˜ao de log-verossimilhan¸ca devido aos termos do modelo de interesse, comparado ao modelo m´ınimo.

2.2.5.2 Res´ıduos

Para regress˜ao log´ıstica existem duas formas principais de res´ıduos correspondendo `

a medida de qualidade de ajuste D e X2_{. Se existir m covari´}_{aveis padr˜}_{oes diferentes,}

ent˜ao m res´ıduos podem ser calculados. O n´umero de sucessos, denotado por Yk, nk o

número de tentativas e ˆπk a probabilidade estimada de sucessos para a k-ésima covariável

padronizada.

Os res´ıduos de Pearson representados como Xk = (yk− nkπˆk) pnkπˆk(1 − ˆπk) , k = 1, . . . , m. (2.51) De 2.49, Pm k=1X 2

k = X2, a estat´ıstica de qualidade de ajuste Pearson chi-quadrado.

Res´ıduos da estat´ıstica deviance podem ser definidos similarmente,

dk = sign(yk− nkπˆk) 2 yklog yk nkπˆk + (nk− yk) log nk− yk nk− nkπˆk 1/2 (2.52)

sendo que o termo sign(yk− nkπˆk) garante que dk tenha o mesmo sinal que Xk.

De 2.43, Pm

k=1d 2

k = D, a estat´ıstica deviance. Esses res´ıduos podem ser usados para

checar a adequa¸cão do modelo. Por exemplo, eles poderiam ser plotados contra cada variável explicativa do modelo para checar se a suposi¸cão de linearidade é apropriada contra a possibilidade de outra variável explicativa não inclu´ıda no modelo.

Se os dados são binários, ou se ni é pequeno para a maioria das covariáveis padrões,

ent˜ao existem poucos valores distintos dos res´ıduos e a plotagem pode ser relativamente pouco informativa. Nesse caso, pode ser necess´ario confiar na qualidade de ajuste das estat´ısticas X2 _{e D e outros diagn´}_osticos.

Para mais detalhes sobre o uso dos res´ıduos para dados bin´arios e binomiais, recomenda-se a leitura do cap´ıtulo 5 de Collett(1991) [14].

2.2.5.3 Interpreta¸c˜ao dos coeficientes

A interpreta¸cão dos coeficientes é dada através de uma medida de associa¸cão, obtida comparando a probabilidade de sucesso com a probabilidade de fracasso [15], a razão de

(34)

chances ou odds ratio, denotada por ψ ou OR, e definida como: ψ = π(1)/[1 − π(1)] π(0)/[1 − π(0)], (2.53) e seu logaritmo ´e log(ψ) = log π(1)/[1 − π(1)] π(0)/[1 − π(0)] = g(1) − g(0), (2.54)

onde π(x)/[1 − π(x)] ´e a chance da resposta quando x assume o valor de 0 ou 1 [16], e o seu logaritmo ´e dado por:

g(x) = log{π(x)/[1 − π(x)]}.

Tabela 1: Valores do Modelo de Regressão log´ıstica quando a variável independente é dicotômica

Vari´avel Vari´avel Independente X

Resposta Y x = 1 x = 0 y = 1 π(1) = exp(β0+β1) 1+exp(β0+β1) π(0) = exp(β0) 1+exp(β0) y = 0 1 − π(1) = _1+exp(β1 0+β1) 1 − π(0) = 1 1+exp(β0) Total 1 1

A partir da Tabela 1, a raz˜ao de chances ´e definida como:

ψ = exp(β0+β1) 1+exp(β0+β1) /_1+exp(β1 0+β1) h exp(β0) 1+exp(β0) i /h_1+exp(β1 0) i = exp(β0+ β1) exp(β0) = exp(β1), (2.55) e o seu logaritmo ´e log(ψ) = log[exp(β1)] = β1.

Por exemplo, utilizando a presen¸ca ou ausência de irregularidade como Y , e X como a variável para a presen¸ca de uma fonte alternativa na residência, sendo um valor estimado para ψ, como por exemplo, ˆψ = 3, este valor pode ser interpretado como a chance da residência sem uma fonte alternativa possuir uma irregularidade ser três vezes maior que a residência que não possui uma fonte alternativa.

Sendo a variável explicativa quantitativa, considera-se dois valores distintos da variável, xi e xi+1. A chance da irregularidade existir entre os indiv´ıduos xi+1 em rela¸cão aos

(35)

in-div´ıduos xi, pode ser analisada como:

βi > 0 ⇒ ψ > 1 ⇒ π(xi+1) > π(xi)

βi < 0 ⇒ ψ < 1 ⇒ π(xi+1) < π(xi)

Utilizando agora X como a vari´avel dias de atraso no pagamento da conta, se o valor de ˆ

ψ = exp(0, 68) = 1, 97, como ˆψ ´e maior que 1, a chance de existir uma irregularidade tende a aumentar quando aumentam os dias de atraso no pagamento da conta.

Outra forma de interpretar os coeficientes é através da varia¸cão, Varia¸cão = (ψ − 1) × 100.

Utilizando o último exemplo com ˆψ = 1, 97 e varia¸cão = (1, 97 − 1) × 100 = 97, será interpretada da seguinte forma, a cada dia de atraso no pagamento da conta, aumenta em 97% a chance de existir uma irregularidade.

2.2.6 Avalia¸

c˜

ao da capacidade preditiva do modelo

Após a sele¸cão do modelo, deve-se avaliar a capacidade preditiva deste. Para isso, a Tabela 2, que representa os resultados do ajuste de um modelo de regressão log´ıstico (valores estimados) e a classifica¸cão real dos indiv´ıduos (valores observados) é utilizada. Tabela 2: Tabela de contingência dos resultados do ajuste do modelo e os valores obser-vados

Valores observados

Valores Positivo Negativo

estimados (Y=1) (Y=0) Total

Positivo V P F P T P = V P + F Pˆ ( ˆY = 1) Negativo F N V N T N = F N + V Nˆ ( ˆY = 0) Total T P = V P + F N T N = F P + V N N

Considerando o contexto do problema, adota-se como sucesso a presen¸ca de irregula-ridade e fracasso a sua ausˆencia. Assim,

• V P (verdadeiro positivo): Número estimado de liga¸cões irregulares quando as liga¸cões são irregulares;

(36)

• F P (falso positivo): Número estimado de liga¸cões irregulares quando as liga¸cões não são irregulares;

• F N (falso negativo): Número estimado de liga¸cões regulares quando as liga¸cões são irregulares;

• V N (verdadeiro negativo): Número estimado de liga¸cões regulares quando as liga¸cões são regulares;

• T P (total estimado de positivos): N´ˆ umero total estimado de liga¸cões irregulares; • T N (total estimado de negativos): N´ˆ umero total estimado de liga¸cões regulares; • T P (total de positivos): Número total de liga¸cões irregularidades;

• T N (total de positivos): Número total de liga¸cões irregulares; • N (total): Número total de liga¸cões.

2.2.6.1 Ponto de corte

Após o seu ajuste, o modelo final terá como variável resposta o logaritmo da chance da i-ésima liga¸cão ter uma irregularidade, g(πi), vindo de 2.46. Assim, a liga¸cão será

classificada como regular ou irregular.

Um ponto de corte (t0) ser´a determinado para essa classifica¸c˜ao, de forma que:

g(πi) > t0 ⇒ ˆYi = 1

g(πi) ≤ t0 ⇒ ˆYi = 0

2.2.6.2 Sensibilidade

A sensibilidade (S) do modelo é definida como a probabilidade da liga¸cão ser irregular (positivo) dado que a liga¸cão realmente é irregular, representada por:

S = P ( ˆY = 1/Y = 1) = P ( ˆY = 1, Y = 1) P (Y = 1) = V P V P + F N = V P T P. (2.56)

(37)

2.2.6.3 Especificidade

A especificidade (E) do modelo é definida como a probabilidade da liga¸cão ser regular (negativo) dado que a liga¸cão é realmente regular, representada por:

E = P ( ˆY = 0/Y = 0) = P ( ˆY = 0, Y = 0) P (Y = 0) = F N F N + V N = V N T N. (2.57)

2.2.6.4 Acur´acia do modelo

A Taxa global de classifica¸cões corretas, ou acurácia (A), pode ser definida como a propor¸cão de acertos do modelo em rela¸cão ao real valor da variável, ou seja, é a probabilidade do modelo acertar o real valor da variável, desta forma:

A = P ( ˆY = Y ) = V P + V N

T P + T N =

V P + V N

N . (2.58)

2.2.6.5 Curva ROC

Uma forma mais eficiente de demonstrar a rela¸cão entre a sensibilidade e a especi-ficidade é a Curva de Caracter´ısticas de Opera¸cão do Receptor (Curva ROC - Receiver Operating Characteristic), uma ferramenta cujo objetivo é descrever quantitativamente o desempenho de um teste diagnóstico ou avaliar a capacidade preditiva de um modelo.

A varia¸c˜ao do ponto de corte (t0) gera valores paras as taxas de verdadeiros

positi-vos (S) e de falsos positipositi-vos (1 − E), a partir dessa varia¸cão, a curva é formada como representa¸cão gráfica dos pares (S; 1 − E), constru´ıda de forma que o eixo x corresponde a 1 − E e o eixo y a S [17], como pode ser visto na Figura 1.

O pacote ROCR do software R apresenta diversas fun¸c˜oes para constru¸c˜ao de Curva ROC. Para saber mais, consultar [?].

(38)

Figura 1: Curva ROC te´orica.

Para este trabalho, o melhor modelo, com melhor acurácia, deve ter a sensibilidade e especificidade mais próximos do valor 1, no gráfico este seria representado no ponto (0,1), no canto superior esquerdo do gráfico, porém, esse cenário ideal dificilmente será alcan¸cado. Assim, o ponto mais próximo do canto superior esquerdo é considerado o ponto ideal.

A ´area abaixo da curva ROC ´e outra medida utilizada para analisar a qualidade da curva e o desempenho do modelo selecionado.

Como a curva ROC é estimada levando em considera¸cão todos os valores de S e E relativos aos valores t0, a área abaixo da curva pode ser interpretada como a probabilidade

do modelo acertar o verdadeiro valor da variável resposta. Um teste sem a capacidade de diferenciar uma liga¸cão irregular de uma regular apresentará um área sob a curva de valor 0, 5, significando que S é igual a 1 − E. Quanto melhor o desempenho do modelo, mais a área se aproximará do valor 1, e mais próxima do canto superior esquerdo estará a curva [18].

(39)

3 An´

alise dos Resultados

O banco de dados obtido originalmente possu´ıa 539876 registros, onde cada um cor-respondia a um cliente, e 17 vari´aveis:

• EMPRESA: ID da empresa a qual a liga¸c˜ao pertence; • ID CICLO: ID do ciclo a qual a liga¸c˜ao pertence;

• COMUNIDADE: Indica se a liga¸cão encontra-se localizada em uma comunidade, • DESOC 12M: Informa se ocorreu impedimento de leitura do hidrômetro referente a não ocupa¸cão do imóvel, pelo menos uma vez nos últimos 12 meses, variável binária com “sim”= 1 e “não”= 0;

• SUSP FRAUDE 12M: Informa se ocorreu impedimento de leitura do hidrˆometro

referente a suspeita de fraude, pelo menos uma vez nos últimos 12 meses, variável binária com “sim”= 1 e “não”= 0;

• CONMED REF519: Consumo de água medido no mês de referência utilizado no estudo;

• MEDIA CONMED 12M: Média de consumo de água medido nos últimos 12

meses;

• INFRACAO 12M: Informa se ocorreu notifica¸cão ou auto de infra¸cão pelo menos uma vez nos últimos 12 meses, variável binária com “sim”= 1 e “não”= 0;

• FONTE ALTERNATIVA: Informa se o cliente possui ou n˜ao fonte alternativa

cadastrada, variável binária com “sim”= 1 e “não”= 0;

• CORTE 6M: Informa se ocorreu corte na liga¸cão de água nos últimos 6 meses, variável binária com “sim”= 1 e “não”= 0;

(40)

• PERFIL PGTO 6M: Perfil de pagamento do cliente, baseado na média da dife-ren¸ca entre a data de vencimento e de pagamento das contas nos últimos 6 meses; • IMOVEL HABITADO: Informa se o imóvel está habitado, variável binária com

“sim”= 1 e “n˜ao”= 0;

• DEM DESOC VAZIO: Informa se o imóvel está desocupado, demolido ou é um terreno vazio, variável binária com “sim”= 1 e “não”= 0;

• FATOR TROCA HD: Fator de Troca do hidrˆometro da liga¸c˜ao;

• NAO PERMITIU OS 6M: Informa se o cliente não permitiu a execu¸cão de al-gum servi¸co nos últimos 6 meses, variável binária com “sim”= 1 e “não”= 0; • TESTE CLORO: Informa se teve algum resultado negativo no teste de cloro no

´

ultimos 6 meses, variável binária com “sim”= 1 e “não”= 0;

• IRREGULARIDADE: Informa se foi encontrada irregularidade na liga¸c˜ao no

mês de referência, variável binária com “sim”= 1 e “não”= 0.

Uma tabela com resumo das vari´aveis iniciais do banco e suas descri¸c˜oes encontram-se no Anexo A.

Após análise inicial do banco, alguns tratamentos foram realizados, como a reti-rada de NA’s, além disso, 3 variáveis foram desconsideradas, IMOVEL HABITADO por conter mais de 525 mil NA’s, NAO PERMITIU OS 6M por conter apenas um valor e

TESTE CLORO por acompanhar os valores de outra vari´avel do banco. Uma nova

variável foi constru´ıda, DIF CONMED MED12M, calculada a partir da diferen¸ca en-tre o consumo medido no mês de referência e a média do consumo medido nos últimos

12 meses, assim, as vari´aveis CONMED REF519 e MEDIA CONMED 12M tamb´em

fo-ram desconsideradas. Ap´os esse tratamento o banco foi reduzido para 2045 clientes e 13 vari´aveis, onde:

(41)

Tabela 3: Distribui¸c˜ao das liga¸c˜oes.

Empresa Sem irregularidade Com irregularidade Total

1 226 10 236 2 157 17 174 3 73 6 79 4 23 4 27 5 131 32 163 6 40 6 46 7 370 79 449 8 285 35 320 9 100 91 191 10 185 80 265 11 91 4 95 Total 1681 364 2045

Por meio do software R, utilizando o pacote caret [19], o banco foi dividido em duas amostras, uma para modelagem, com 1636 clientes e outra para teste do modelo final com 409 clientes, equivalentes a 80% e 20% do banco de dados, respectivamente, preservando aproximadamente a mesma propor¸c˜ao de liga¸c˜oes com e sem irregularidade do banco de dados inicial (82, 2% e 17, 8%, respectivamente), amostra de modelagem com 82, 3% e 17, 7% e amostra de teste com 81, 7% e 18, 3%.

Tabela 4: Amostras.

Banco Sem irregularidade Com irregularidade Total

Amostra de Modelagem 1347 289 1636

(42)

3.1 Modelo completo e Teste de Wald

Utilizando o amostra de treino para o ajuste do modelo, primeiramente foi obtido o modelo completo, com todas as variáveis, e partir deste foi realizado o Teste de Wald de significância individual, a fim de identificar quais variáveis têm efeito significativo. Os seguintes valores de p-valor foram encontrados para cada variável,

Tabela 5: Resultados do Teste de Wald.

Vari´avel p-valor

EMPRESA >0,01

ID CICLO >0,01

COMUNIDADE 0,01

DESOC 12M >0,01

SUSP FRAUDE 12M >0,01

DIF CONMED MED12M 0,15

INFRACAO 12M >0,01

FONTE ALTERNATIVA 0,08

CORTE 6M 0,12

PERFIL PGTO 6M 0,62

DEM DESOC VAZIO 0,02

FATOR TROCA HD 0,04

Observando os resultados do teste, pode-se identificar as variáveis que possuem p-valor menor que o n´ıvel de significância de 5% (α = 0, 05), rejeitando a hipótese nula, ou seja, são significativas. Assim, as seguintes variáveis foram escolhidas EMPRESA, ID CICLO,

COMUNIDADE, DESOC 12M, SUSP FRAUDE 12M, INFRACAO 12M, DEM DESOC VAZIO e FATOR TROCA HD e o modelo 1 foi obtido.

3.2 Sele¸

c˜

ao autom´

atica

Utilizando a sele¸cão automática, foi obtido o modelo 2, com as variáveis EM-PRESA, SUSP FRAUDE 12M, INFRACAO 12M, CORTE 6M, DEM DESOC VAZIO e FATOR TROCA HD.

3.3 Teste de comparabilidade de modelos

Realizando agora o Teste de comparabilidade de modelos, comparando o modelo com-pleto, o modelo 1 e o modelo 2, dois a dois, chegando aos seguintes resultados

(43)

Tabela 6: Resultados do Teste de comparabilidade de modelos.

M 0 M 1 p-valor Modelo mais adequado

Modelo 1 Modelo completo 0,1439 Modelo 1

Modelo 2 Modelo completo 0,001 Modelo completo

Modelo 2 Modelo 1 0,002 Modelo 1

A partir dos resultados encontrados, decide-se, com base no p-valor, que o modelo 1 ´e o mais adequado e portanto, foi escolhido para a realiza¸c˜ao do trabalho.

3.4 Capacidade preditiva do modelo

Para a avalia¸c˜ao da capacidade preditiva do modelo, o ponto de corte (t0) ´otimo foi

calculado utilizando a amostra de modelagem e para o seu c´alculo, o pacote ROCR foi utilizado, chegando assim a t0 = 0, 296.

Assim,

ˆ

Yi > t0 = 0, 296 ⇒ ˆYi = 1

ˆ

Yi ≤ t0 = 0, 296 ⇒ ˆYi = 0

A partir desse valor de t0, a capacidade preditiva do modelo ´e avaliada em um

pri-meiro momento aplicando o modelo 1 sobre a amostra de modelagem, calculando sua sensibilidade, especificidade e acur´acia. Os seguintes resultados foram encontrados

Tabela 7: Amostra de modelagem. Valores observados

Valores estimados Com irregularidade Sem irregularidade Total

Com irregularidade 229 39 268

Sem irregularidade 60 1308 1368

Total 289 1347 1636

A sensibilidade apresentou o valor de 79,24%, ou seja, essa é a taxa de classifica¸cão correta do modelo para liga¸cões com irregularidade na amostra de modelagem.

A especificidade apresentou o valor de 97,1%, ou seja, essa é a taxa de classifica¸cão correta do modelo para liga¸cões sem irregularidade na amostra de modelagem.

A acur´acia apresentou o valor de 93,9%, ou seja, o modelo classifica corretamente 93,9% das liga¸c˜oes.

(44)

a sensibilidade, especificidade, acur´acia e a ´area abaixo da curva. Tabela 8: Amostra de teste.

Valores observados

Valores estimados Com irregularidade Sem irregularidade Total

Com irregularidade 61 15 76

Sem irregularidade 14 319 333

Total 75 334 409

A sensibilidade apresentou o valor de 81,3%, ou seja, essa é a taxa de classifica¸cão correta do modelo para liga¸cões com irregularidade na amostra de modelagem.

A especificidade apresentou o valor de 95,5%, ou seja, essa é a taxa de classifica¸cão correta do modelo para liga¸cões sem irregularidade na amostra de modelagem.

A acur´acia apresentou o valor de 92,9%, ou seja, o modelo classifica corretamente 92,9% das liga¸c˜oes.

A curva ROC (Figura 2), relativa a amostra de teste, apresentou um valor da ´area abaixo da curva de AUC = 0,9343.

Figura 2: Curva ROC do modelo.

O valor de AU C encontrado indica que o modelo 1 tem um bom ajuste para repre-sentar os dados. Para completar a an´alise do modelo o R2 _{de Mc Fadden tamb´}_{em foi}

(45)

calculado, chegando ao seguinde valor

R2_{M F} = 0, 6951. (3.1)

Indicando um melhoria proporcional de 69,5%, ou seja, o modelo 1 apresenta um ganho de 69,5% de informa¸c˜ao estimada em rela¸c˜ao ao modelo m´ınimo.

3.5 Interpreta¸

c˜

ao dos coeficientes

Para cada variável foi calculada a razão de chances (OR) e sua varia¸cão a partir das estimativas de seus coeficientes ( ˆβ), e são apresentados na Tabela 9. As variáveis EM-PRESA e ID CICLO não foram consideradas nessa se¸cão por possu´ırem muitas categorias, as tabelas encontradas no Anexo B apresentam suas estimativas.

Tabela 9: Estimativas dos coeficientes e raz˜ao de chances.

Vari´avel βˆ OR Varia¸c˜ao

COMUNIDADE 0.60 1.83 82.76

DESOC 12M -0.36 0.70 -30.10

SUSP FRAUDE 12M 0.05 1.05 5.44

INFRACAO 12M 6.32 554.50 55349.60

DEM DESOC VAZIO -1.63 0.20 -80.38

FATOR TROCA HD -0.19 0.83 -17.29

A partir da Tabela 9 pode-se interpretar da seguinte forma,

• A localiza¸c˜ao da liga¸c˜ao em uma comunidade aumenta em 82,8% a chance de possuir uma irregularidade;

• A ocorrência de impedimento de leitura do hidrômetro referente a não ocupa¸cão do imóvel, pelo menos uma vez nos últimos 12 meses, reduz em 30,1% a chance de possuir uma irregularidade;

• A ocorrência de impedimento de leitura do hidrômetro referente a suspeita de fraude, pelo menos uma vez nos últimos 12 meses, aumenta em 5,4% a chance de possuir uma irregularidade;

• A ocorrência de notifica¸cão ou auto de infra¸cão, pelo menos uma vez nos últimos 12 meses, aumenta 554,5 vezes a chance de possuir irregularidade;

• O im´ovel estar desocupado, demolido ou um terreno vazio reduz em 80,4% a chance de possuir uma irregularidade;

(46)

• A cada uma unidade do Fator de Troca do hidrˆometro da liga¸c˜ao a chance de possuir uma irregularidade reduz em 17,3%.

3.6 Conclus˜

ao

Como uma grande parte do ´ındice de perda de água hoje no setor Urbano é proveniente de vazamentos e irregularidades nas liga¸cões de água distribu´ıdas por toda a cidade, o combate à elas tornou-se de grande importância não apenas para a economia das empresas de distribui¸cão como para a própria popula¸cão.

Com o intuito de diminuir essa perda, as empresas investem cada vez mais no combate a vazamentos e a identifica¸cão de irregularidades, a partir desse cenário, um modelo foi ajustado utilizando técnicas estat´ısticas, como modelo linear generalizado e curva ROC, com o aux´ılio do software R. A partir dessas técnicas foram avaliadas variáveis existentes no banco de dados de clientes da empresa e assim foram determinadas quais teriam efeitos significativos para o modelo de identifica¸cão de irregularidades.

Com os resultados atuais do modelo, acurácia de 92,9%, a empresa precisaria mandar menos equipes à rua em busca de irregularidades, teria os endere¸cos com maior chance de irregularidades, economizando assim, tempo e recursos. Redirecionando as equipes para outros tipos de servi¸cos, atendendo melhor a popula¸cão, melhorando assim sua imagem no mercado e tornando o combate à irregularidades mais eficiente.

(47)

Referˆ

encias

[1] MAGALH ˜AES, L. Crise h´ıdrica no Brasil. Accessado em 28-Fevereiro-2019. Dispon´ıvel em: <https://www.todamateria.com.br/crise-hidrica-no-brasil/>.

[2] BRASIL, T. Agua.´ Accessado em 28-Fevereiro-2019. Dispon´ıvel em:

<http://www.tratabrasil.org.br/saneamento/principais-estatisticas/no-brasil/agua>. [3] ASSEMAE. 46a Assembleia: redu¸c˜ao de perdas ser´a tema de mesa. 2016.

Acces-sado em 28-Fevereiro-2019. Dispon´ıvel em: <http://www.assemae.org.br/noticias- congresso/item/1460-46-assembleia-da-assemae-reducao-de-perdas-sera-tema-de-mesa>.

[4] BRASIL, T. Instituto trata brasil. Perdas de água: novo estudo mostra as perdas nos sistemas de distribui¸cão, a baixa evolu¸cão desses indicadores e os grandes desafios para a solu¸cão., 2015.

[5] BRASIL, T. Instituto trata brasil. Perdas de Água - Desafios para Disponibilidade H´ıdrica e Avan¸co da Eficiência do Saneamento Básico, 2018.

[6] EOS, B. da. ATITUDES PARA REDUÇ ÃO DE PERDAS DE ÁGUA. Accessado

em 28-Fevereiro-2019. Dispon´ıvel em: <https://www.eosconsultores.com.br/reducao-de-perdas-de-agua/>.

[7] NELDER, J. A.; WEDDERBURN, R. W. Generalized linear models. Journal of the Royal Statistical Society: Series A (General), Wiley Online Library, v. 135, n. 3, p. 370–384, 1972.

[8] CORDEIRO, G. M.; DEM´ETRIO, C. G. Modelos lineares generalizados e extens˜oes. Sao Paulo, v. 33, 2008.

[9] DOBSON, A. J.; BARNETT, A. An introduction to generalized linear models. 2. ed. [S.l.]: Chapman and Hall/CRC, 2002.

[10] CHARNES, A.; FROME, E. L.; YU, P.-L. The equivalence of generalized least squa-res and maximum likelihood estimates in the exponential family. Journal of the Ame-rican Statistical Association, Taylor & Francis Group, v. 71, n. 353, p. 169–171, 1976. [11] R Core Team. R: A Language and Environment for Statistical Computing. Vienna,

Austria, 2019. Dispon´ıvel em: <https://www.R-project.org/>.

[12] CRESSIE, N.; READ, T. R. Pearson’s x2 and the loglikelihood ratio statistic g2: a comparative review. International Statistical Review/Revue Internationale de Statisti-que, JSTOR, p. 19–43, 1989.

(48)

[13] HOSMER, D. W.; LEMESHOW, S. Goodness of fit tests for the multiple logistic regression model. Communications in statistics-Theory and Methods, Taylor & Francis, v. 9, n. 10, p. 1043–1069, 1980.

[14] COLLETT, D. Modelling binary data. [S.l.]: Chapman and Hall/CRC, 1991.

[15] PAULA, G. A. Modelos de regress˜ao: com apoio computacional. [S.l.]: IME-USP S˜ao Paulo, 2004.

[16] SOUZA, É. C. d. Análise de influência local no modelo de regressão log´ıstica. Tese (Doutorado) — Universidade de São Paulo, 2006.

[17] MARTINEZ, E. Z.; NETO, F. L.; PEREIRA, B. d. B. A curva roc para testes diagn´osticos. Cadernos de Sa´ude Coletiva, v. 11, n. 1, p. 7–31, 2003.

[18] PRATI, R. C. et al. Curvas roc para avalia¸c˜ao de classificadores. Revista IEEE Am´erica Latina, v. 6, n. 2, p. 215–222, 2008.

[19] Max Kuhn. The caret Package. [S.l.], 2019. Dispon´ıvel em:

(49)

ANEXO A -- Vari´

aveis iniciais

A Tabela abaixo apresenta as vari´aveis originais presentes no banco inicial utilizado neste estudo e suas descri¸c˜oes.

(50)

Tabela 10: Vari´aveis iniciais

Variável Código Variável Descri¸cão

Empresa EMPRESA ID da empresa que a liga¸c˜ao

per-tence.

Ciclo ID CICLO Ciclo da liga¸c˜ao.

Comunidade COMUNIDADE Liga¸c˜ao em comunidade “sim” ou

“n˜ao”. Ocorrˆencia de leitura

-ocupa¸c˜ao

DESOC 12M Informa se ocorreu

impedi-mento de leitura referente a não ocupa¸cão do imóvel nos últimos 12 meses.

Ocorrˆencia de leitura -suspeita de fraude

SUSP FRAUDE 12M Informa se ocorreu suspeita de

fraude nos ´ultimos 12 meses.

Consumo medido CONMED REF519 Consumo medido na referˆencia

utilizada no estudo.

M´edia Consumo

me-dido

MEDIA CONMED 12M M´edia de consumo medido nos

´

ultimos 12 meses. Hist´orico de

noti-fica¸c˜ao ou auto de infra¸c˜ao

INFRACAO 12M Notifica¸c˜ao ou auto de infra¸c˜ao

nos ´ultimos 12 meses.

Fonte Alternativa FONTE ALTERNATIVA Cliente possui ou n˜ao fonte

alter-nativa cadastrada . Hist´orico de corte

exe-cutado

CORTE 6M Corte executado nos ´ultimos 6

meses. Perfil de pagamento

do cliente

PERFIL PGTO 6M M´edia de dias para o pagamento

das contas nos últimos 6 meses. Situa¸cão do imóvel

-Leitura

IMOVEL HABITADO Im´ovel habitado.

Situa¸c˜ao do im´ovel -OS

DEM DESOC VAZIO Im´ovel desocupado, demolido ou

terreno vazio.

Fator de Troca do HD FATOR TROCA HD Fator de Troca para o hidrˆometro

da liga¸c˜ao.

Permiss˜ao de

execu¸c˜ao de OS

NAO PERMITIU OS 6M Cliente n˜ao permitiu a execu¸c˜ao

de algum servi¸co nos ´ultimos 6 meses.

Teste de cloro TESTE CLORO Resultado negativo para o teste

de cloro no ´ultimos 6 meses.

Irregularidade IRREGULARIDADE Existˆencia de irregularidade no