• Nenhum resultado encontrado

Para descrever as propriedades dos pontos de corte no m´etodo DPV, os seguintes conceitos s˜ao definidos no contexto de uma vari´avel vi:

• p(x) como uma fun¸c˜ao que recebe um valor x como entrada e retorna o percentil que esse valor se encontra;

• p−1(y) como a fun¸ao inversa da fun¸ao p(x): recebe um percentil y como entrada e retorna o valor x que ele representa;

• vale como o percentil expresso pelo ponto de corte vale; • pico como o percentil expresso pelo ponto de corte pico;

52

• vale < pico; • X∗= x

1, . . . , x∗ncomo o vetor discretizado do conjunto de valores de vi (X = x1, . . . , xn).

• pxmin como o percentil que representa o menor valor (xmin) em

vi;

• pxmax como o percentil que representa o maior valor (xmax) em

vi; ´

E poss´ıvel mesclar ou desprezar pontos de corte se eles n˜ao forem relevantes para a solu¸c˜ao. A relevˆancia dos pontos de corte e sua pro- ximidade com os valores extremos (xmin e xmax) s˜ao expressos por um coeficiente de relevˆancia α (0 < α < 1) definido por parˆametro, que de- termina qu˜ao perto o ponto de corte est´a desses valores. A proximidade para os dois pontos de corte segue as seguintes equa¸c˜oes:

xmin p−1(vale) ≤ α =⇒ p −1(vale) ≥ xmin α (5.1) p−1(pico) xmax < α =⇒ p−1(pico) < xmax∗ α (5.2) como vale < pico, a seguinte inequa¸c˜ao ´e v´alida:

xmin

α < xmax∗ α (5.3)

Ou seja, para que exista um valor v´alido de α ´e necess´ario satis- fazer a inequa¸c˜ao:

α2> xmin xmax =⇒ α >r xmin xmax (5.4) ´

E necess´ario, portanto, aplicar uma corre¸c˜ao em α para assegu- rar que os pontos sempre possuam um intervalo de valores considerado relevante independente da proximidade de xmin e xmax. O valor ajus- tado do coeficiente, α0, ´e definido por:

α0= ((1 − δ) · α) + δ (5.5) onde δ ´e o coeficiente limite entre xmin e xmax, definido por:

δ =r xmin xmax

53

com essa defini¸c˜ao, ´e poss´ıvel inferir que o limite da Equa¸c˜ao 5.5 quando δ → 0 ´e:

lim

δ→0((1 − δ) · α) + δ = α (5.7) Ou seja, quando a distˆancia entre xmin e xmax for muito grande (tender ao infinito), o valor de δ tende a zero e α0= α. A relevˆancia dos cortes, ´e portanto determinada pelo coeficiente ajustado α0. O menor valor relevante de vale ´e dado por:

p−1(valemin) = xmin

α0 (5.8)

e o maior valor relevante de pico ´e:

p−1(picomax) = xmax· α0 (5.9) Atrav´es das Equa¸c˜oes 5.8 e 5.9 e considerando que ambos os pon- tos de corte possuam diferentes defini¸c˜oes, ´e poss´ıvel definir a seguinte hierarquia:

pxmin≤ vale ≤ γ < pico ≤ pxmax (5.10)

onde γ = valemin+picomax

2 representa o limite entre pico e vale. Os seguintes crit´erios s˜ao usados para mesclar ou desprezar pon- tos de corte:           

caso 1: se pp−1−1(vale)(pico) > α0, ent˜ao mescle por

vale+pico 2 caso 2: se p−1x(pico)

max > α

0, ent˜ao despreze o corte de pico caso 3: se xmin

p−1(vale) > α0, ent˜ao despreze o corte de vale

caso 4: se caso 2 e caso 3 ent˜ao mescle por vale+pico2

(5.11) A caracter´ıstica da RB de representar o conhecimento de forma expl´ıcita cria uma preocupa¸c˜ao quanto ao nome das classes em X∗, que devem ser intuitivas e expressar suas propriedades. Dessa forma, os nomes das classes foram escolhidos levando em considera¸c˜ao a Equa¸c˜ao 5.11.

O c´alculo da relevˆancia dos cortes pico e vale no m´etodo DPV ´e feito de forma param´etrica e ´e necess´ario a defini¸c˜ao de alguns parˆametros, como: a vari´avel a ser discretizada, o valor do coeficiente de relevˆancia α, e os dois pontos de corte respeitando a hierarquia da Equa¸c˜ao 5.5. Esses parˆametros s˜ao definidos como entrada para o c´alculo.

54

Ap´os a defini¸c˜ao dos parˆametros de entrada, ´e aplicada a corre¸c˜ao do valor alpha pela Equa¸c˜ao 5.5 e s˜ao calculados os valores de caso1, caso2 e caso3 atrav´es da Equa¸c˜ao 5.11. Os valores calculados deter- minar˜ao a quantidade de classes para a discretiza¸c˜ao e o r´otulo das mesmas.

O fluxo geral do c´alculo da relevˆancia dos cortes e sua respectiva discretiza¸c˜ao pelo m´etodo DPV ´e expresso no Algoritmo 3.

Algoritmo 3 Relevˆancia dos cortes de pico e vale e discretiza¸c˜ao

1: v ← a vari´avel quantitativa a ser discretizada

2: α ← algum coeficiente de relevˆancia α, (0 < α < 1)

3: vale ← algum percentil de acordo com a Equa¸c˜ao 5.10

4: pico ← algum percentil de acordo com a Equa¸c˜ao 5.10

5: α0← corre¸c˜ao do α (Equa¸c˜ao 5.5)

6: caso1 ← pp−1−1(vale)(pico)

7: caso2 ← p−1x(pico)

max

8: caso3 ← xmin

p−1(vale)

9: if caso1 > α0 or ( caso2 > α0 and caso3 > α0 ) then 10: discretize v usando “baixo” e “alto” (2 classes)

11: else if caso2 > α0 then

12: discretize v usando “baixo” e “m´edio” (2 classes)

13: else if caso3 > α0 then

14: discretize v usando “m´edio” e “alto” (2 classes)

15: else

16: discretize v usando “baixo”, “m´edio” e “alto” (3 classes)

17: end if

18: return v discretizada (v∗)

5.1.1 Exemplo de Aplica¸c˜ao

Imagine uma situa¸c˜ao onde xmin = 10, xmax = 12 e α = 0.8. Caso fosse aplicado o coeficiente de relevˆancia sem efetuar a corre¸c˜ao (α = α0), o menor valor poss´ıvel para o vale ser considerado relevante, pela Equa¸c˜ao 5.8, ´e:

p−1(valemin) =

(xmin= 10)

(α0 = α = 0.8) = 12.5 (5.12) De forma an´aloga, o maior valor poss´ıvel para o pico ser consi-

55

derado relevante, pela Equa¸c˜ao 5.9, ´e:

p−1(picomax) = (xmax= 12) · (α0= α = 0.8) = 9.6 (5.13) Esses valores geram uma contradi¸c˜ao, pois nunca seria aceito como relevante nenhum corte de vale ou de pico.

Para realizar a corre¸c˜ao em α ´e necess´ario calcular o δ pela Equa¸c˜ao 5.6 e aplicar a corre¸c˜ao do coeficiente de relevˆancia pela Equa¸c˜ao 5.5: δ = s (xmin= 10) (xmax= 12) ∼ = 0.8334 (5.14) α0= ((1 − (δ = 0.8334)) · (α = 0.8)) + (δ = 0.8334) = 0.96668 (5.15) E por consequˆencia, os valores de p−1(valemin) e p−1(picomax) s˜ao alterados pelas Equa¸c˜oes 5.8 e 5.9:

p−1(valemin) =

(xmin= 10)

(α0 = 0.96668)∼= 10.3447 (5.16)

p−1(picomax) = (xmax= 12) · (α0= 0.96668) ∼= 11, 6001 (5.17) Ap´os definido os pontos de corte ´e necess´ario analisar a relevˆancia dos mesmos (Equa¸c˜ao 5.11).

Vamos supor que o algoritmo tenha definido os pontos de corte, e em uma vari´avel vitenha sido encontrado o valor de vale = 20. Ou seja, o corte de vale encontra-se no percentil 20. Vamos supor ainda, que por interpola¸c˜ao linear fosse encontrada p−1(vale) = 10.3. Da mesma forma para o corte de pico, imagine que pico = 98 e p−1(pico) = 11.9 Observe que nesse caso o corte de pico seria desprezado: o ´unico corte v´alido seria o de vale.

Caso vale = 10, p−1(vale) = 10.15, pico = 80 e p−1(pico) = 11.5, seria desprezado o corte de vale.

Caso os valores estejam pr´oximos, por exemplo,vale = 48, p−1(vale) = 10.98, pico = 52 e p−1(pico) = 11, nesse caso os dois cortes s˜ao unidos e ´e criado um novo corte pela Equa¸c˜ao 5.11:

(vale = 48) + (pico = 52)

56

e seu percentil estabelecido por interpola¸c˜ao linear. Nesse caso, corte = 50 e p−1(corte) = 10.99.

Se o valor de vale for muito baixo e o de pico muito alto simulta- neamente ´e feito um novo corte de forma similar ao exemplo anterior. Nunca ocorrer´a um caso em que o corte de vale seja muito alto ou que o pico seja muito baixo, pois esses cortes obedecem a hierarquia estabelecida na Equa¸c˜ao 5.10.

Documentos relacionados