• Nenhum resultado encontrado

Capítulo 3 RemT

3.3. Algoritmos de agrupamento e de associação de dados

Após a preparação de dados é realizada a operação de clustering. Os algoritmos de

clustering propõem-se assim a auxiliar os agentes de decisão na procura e identificação de

padrões nos dados [Ribeiro C., et al., 2015], [Ribeiro C., et al., 2016], [Ribeiro C., et al., 2017a], [Ribeiro C., et al., 2017b].

A escolha e utilização destes dois algoritmos foi feita com base nas conclusões de diversos trabalhos realizados por outros autores, para o K-means temos como referência [Ramos S., 2015], [Duarte, et al., 2007], decidiu-se utilizar por ser um dos que apresenta melhores desempenhos para o tipo de dados em análise. Utilizaram-se os índices de validação MIA e CDI para apoiar a escolha do melhor grupo dados, bem como o número óptimo de classes. O ADE-

LPC clustering algorithm revelou ser um algoritmo versátil e também com resultados válidos

que temos com referência em [Lezama F., et al.,2016].

Nesta fase os consumidores são agrupados em classes, segundo um critério de semelhança, este agrupamento de dados é realizado com algoritmos distintos, recorrendo a suporte de técnica estatística. Seguem-se as técnicas utilizadas

3.3.1. Algoritmo de clustering K-means

O algoritmo de clustering K-means dá origem a subgrupos de dados de acordo com características em comum dos diferentes agentes participantes. O processo de clustering é avaliado de forma que se consiga encontrar os subgrupos que trazem maior valor acrescentado para o processo de tomada de decisão. Agrupar players com características semelhantes é fundamental para optimizar o processo de definição de estratégias de remuneração e tarifas. A função objectivo simplificada deste algoritmo está representada na equação (3.9).

𝐽 = ∑𝑘𝑗=1 ∑ ||𝑥𝑖(𝑗)− 𝑐𝑗|| 2 𝑛

𝑖=1 (3.9)

Aqui|𝑥𝑖(𝑗)− 𝑐𝑗| é uma distância escolhida entre um ponto de dados 𝑥𝑖 (𝑗)

e o centro do

cluster 𝑐𝑗 é um indicador de distância de n dados, dos seus respectivos centros do cluster.

3.3.2. ADE-LPC clustering algorithm

Neste algoritmo o utilizador define o número máximo de clusters que pretende testar e é o algoritmo que cria diferentes soluções com diferentes números de clusters. Internamente, este algoritmo faz uma selecção e devolve uma solução óptima, esta selecção é feita com base no índice de "CalinskiHarabsz". Ele aplica este índice a todas as soluções geradas e devolve a

melhor, que representa no número de clusters ideal. Este algoritmo optimiza duas métricas ao mesmo tempo, ele considera a formulação multiobjectivo de Pareto e dominância. As funções objectivo estão formuladas nas equações (3.10) e (3.11):

𝐷𝐸𝑉(𝑐) = ∑𝑐𝑗∈𝑐𝑝𝑖∈𝑐𝑗𝑑(𝑝𝑖, 𝛿𝑗) (3.10) 𝐶𝑂𝑁𝑁(𝐶) = ∑𝑁𝑖=1(∑𝐿𝑗=1𝑥𝑖, 𝑛𝑛𝑖𝑗) (3.11) Onde: 𝑥𝑟.𝑠 = { 1 𝑗, 𝑖𝑓∄𝐶𝑘: 𝑟 ∈ 𝐶𝑘⋀ 𝑠 ∈ 𝐶𝑘 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 (3.12)

A função (3.109) representação a operação de minimizar a distância em cada elemento para o centroide. C corresponde ao conjunto de clusters, é o centroide do cluster e é uma função de distância (e.g., Distância Euclediana). Essa métrica calcula as distâncias totais somadas entre os padrões e o centro do cluster correspondente. Em (3.11) está representada a métrica que define a conectividade (Conn), esta métrica avalia o grau em que os datapoints vizinhos foram colocados no mesmo cluster. Em (3.12) é avaliado o nível de distância, em que os pontos vizinhos (dados), foram colocados no mesmo cluster. Ele acrescenta penalizações se os pontos de dados vizinhos não pertencerem ao mesmo cluster. L representa o valor mais próximo do padrão . A função de distância (distância euclidiana) é usada uma vez no início do processo para determinar os padrões mais próximos para cada . é o j vizinho mais próximo do padrão i, n é o número de dados e L é um parâmetro que determina o número de vizinhos que contribuem para medir da conectividade. Os gráficos da Figura 3.2 mostram a representação gráfica da compactação/densidade dos clusters e a relação/conectividade entre

clusters.

A B

3.3.3. Coeficiente de Correlação de Pearson

Esta é uma técnica utilizada na associação de dados. O método de Correlação de Pearson é uma técnica que permite obter um determinado valor de relação entre as diferentes variáveis, permitindo assim identificar claramente quais as variáveis que estão mais relacionadas entre si. O coeficiente de correlação de Pearson, já exposto no subcapítulo 2.7.2., foi seleccionado para esta análise eencontra-se disponível no mathworks do Matlab, entre várias outras metodologias de correlação que podem ser testadas em trabalhos futuros, como “Kendall” ou “Spearman”. Foi realizado também, um teste de confiança sobre os resultados obtidos, para aferir do erro associado à aplicação deste método, apresentados na Tabela 3-1.

Tabela 3-1 – Coeficiente de correlação de Pearson

A sua expressão matemática é dada pela equação (3.13). O teste de confiança associado a este coeficiente é o P_Value do mathwoks, indica se a correlação entre as variáveis é significativamente diferente de 0. Se é igual a 1 podemos dizer com elevado grau de confiança que está correlacionada. As variáveis podem estar correlacionadas positivamente ou negativamente. Outro teste de confiança que poderia ser aplicado, a título de exemplo, seria a Covariância, verificar se a série é estacionária ou não, etc. Para o objectivo deste trabalho o Coeficiente de Correlação de Pearson com o teste de confiança utilizado é perfeitamente suficiente para aferir dos resultados que são necessários

𝑟 =

𝑛 ∑(𝑥𝑖.𝑦𝑖)−(∑ 𝑥𝑖)(∑ 𝑦𝑖) √𝑛 ∑ 𝑥𝑖2−(∑ 𝑥𝑖)2.√𝑛 ∑ 𝑦𝑖2−(∑ 𝑦𝑖)2 (3.13) De Até Interpretação 0 0 Nula 0 0,35 Fraca 0,35 0,65 Média 0,65 0,95 Forte 0,9 0,99 Muito Forte 1 1 Perfeita

−1 ≤ 𝑟 ≤ 1 3.3.4. Validação da qualidade da partição

Após a definição dos clusters é fundamental aplicar os índices de validação de clustering, procedendo-se à validação e resultados obtidos de forma a aferir do número óptimo de grupos do conjunto e da qualidade da partição. As funções objectivo os índices MIA e CDI são utilizados para validar os resultados obtidos da aplicação do algoritmo K-means, estas estão representados nas equações (2.15) e (2.16) já formuladas e explicadas na subsecção 2.7.6.

𝑀𝐼𝐴 = √1 𝐾∑ 𝑑 2(𝑟(𝑘), 𝐷(𝑘)) 𝐾 𝑘=1 (2.15) 𝐶𝐷𝐼 =√ 1 𝐾∑ [ 1 2𝑛(𝑘)∑ 𝑑 2(𝑟(𝑘),𝐷(𝑘)) 𝑛(𝑘) 𝑛=1 ] 𝐾 𝑘=1 𝑑(𝑅) (2.16)

Para aferir da qualidade da partição o ADE-LPC utiliza para validação de resultados o

CDI (Clustering Dispersion Indicator) e o SI (Scatter Index). Estes índices de validação são

definidos sob o princípio de que uma melhor partição tem menor variação interna e os

centroides estão separados uns dos outros o mais possível. Valores baixos de CDI e SI indicam

uma melhor solução de clustering. As funções objectivo estão representadas nas equações (2.16) e (3.14). 𝑆𝐼(𝑐) = ∑𝑛𝑖=1𝑑2(𝑝𝑖,𝑝̅) ∑ 𝑑2(𝛿 𝑗,𝑝̅) 𝐾 𝑗=1 (3.14)

Onde ∑𝑛𝑖=1𝑑2(𝑝𝑖, 𝑝̅) corresponde à uma distância de cada grupo para a média de todos os grupos e ∑𝐾𝑗=1𝑑2(𝛿𝑗, 𝑝̅) corresponde à distância de cada centroide para a média de todos os grupos.