Uma propriedade importante de restrições ML é a transitividade (Wagstaff et al., 2001). Mais especificamente, considere o conjunto de dados X = {xn}Nn=1, xn ∈ RM. Dada uma
restrição ML entre xi e xj (i, j ∈ {1, ..., N}), denotada por c=(i, j), se c=(i, j) e c=(j, l),
então c=(i, l) pode ser deduzida. No entanto, o mesmo não é válido para restrições CL. Ao se considerar ambos os tipos de restrições, novas restrições CL podem ser deduzidas. Por exemplo, seja uma restrição CL entre xi e xj, denotada por c6=(i, j), se c=(i, j) e c6=(j, k),
então c6=(i, k) pode ser deduzida. Pode-se realizar a dedução de todas as restrições possíveis por meio dos seguintes passos. Inicialmente, considere M o conjunto de todas as restrições ML fornecidas e C o conjunto de todas as restrições CL fornecidas. Pode-se então obter um grafo G = (X , M), i.e., um grafo no qual cada vértice representa um objeto e existe uma aresta entre dois vértices se uma restrição ML entre os dois objetos foi fornecida. Pode-se observar que os componentes conexos1são formados por vértices que representam objetos que devem estar no mesmo grupo. Portanto, dado um componente conexo CCl, pode-se inferir
c=(a, b),∀xa, xb ∈ CCl. Estes componentes conexos são usualmente denominados chunklets.
No caso de restrições CL, se existe uma restrição c6=(i, j), tal que, xi ∈ CCl e xj ∈ CCm,
pode-se inferir c6=(a, b),∀xa ∈ CCle xb ∈ CCm (Basu et al., 2008).
À primeira vista, pode parecer que quanto maior o número de restrições fornecidas melhor seria o desempenho de um dado algoritmo de ADR. No entanto, diversos resultados empíri- cos indicam que isto não é verdade (Davidson e Ravi, 2006; Davidson et al., 2006; Greene e Cunningham, 2007; Freund et al., 2008; Vu et al., 2010). Existem diversas razões para esta suposição intuitiva não prevalecer na prática. Dentre elas, pode-se destacar: (i) o uso de um número excessivo de restrições pode tornar o problema intratável; (ii) pode haver restrições que
1Um componente conexo de um grafo G é um subgrafo maximal de G tal que para qualquer par {v, w} de seus
4.2 Restrições Must-Link e Cannot-Link e suas Propriedades 61 não forneçam informações úteis; (iii) dependendo da forma de aquisição, algumas restrições podem ser errôneas.
Em Davidson et al. (2006), são propostas duas medidas para avaliar a qualidade de restri- ções: informatividade e coerência. A primeira medida, dependente do algoritmo, contabiliza o número de restrições de um dado conjunto que o algoritmo de ADR satisfaz mesmo sem ser in- formado sobre elas, i.e., por meio do seu próprio viés (bias) indutivo. A segunda medida analisa a sobreposição da projeção de restrições ML sob CL (e vice-versa), sendo que a existência de sobreposição indica que o par de restrições é incoerente. Por meio destas medidas, é possível filtrar o conjunto, visando reduzir o custo computacional e melhorar as informações fornecidas ao algoritmo de ADR.
Uma alternativa para a obtenção de restrições mais úteis é por meio de seleção ativa de restrição (active constraint selection), na qual são selecionados pares de objetos para os quais é interessante, de acordo com algum critério, que o usuário forneça as restrições (ML ou CL) entre eles. Pode-se citar como exemplos os trabalhos de Basu et al. (2004a), cujo critério é ba- seado na distância entre objetos, Greene e Cunningham (2007), no qual o critério é baseado em matrizes de co-associação obtidas por ensembles, e Vu et al. (2010), em que o critério adotado é baseado nos vizinhos mais próximos em comum entre os objetos. No entanto, essa abordagem nem sempre é possível devido à indisponibilidade, ou custo excessivo, de um especialista para responder as consultas.
Sob a perspectiva de agrupamento de dados, é importante fazer uma ressalva em relação a restrições ML. Pelo fato das restrições serem obtidas, usualmente, considerando um deter- minado conceito ao qual o usuário quer diferenciar, estas podem fazer pouco sentido quando consideradas sob o espaço de atributos utilizado. Um exemplo comum dessa situação é quando as restrições são obtidas a partir de rótulos de classes em problemas de classificação. Dado que uma classe pode estar dividida em mais de uma região no espaço de atributos, é possível que a hipótese de um grupo por classe, que é implicitamente feita ao transformar rótulos em restri- ções, seja inválida. Esta situação é ilustrada na Figura 4.1, na qual a classe ‘o’ consiste em dois grupos e a classe ‘x’ consiste em três grupos. É fácil notar que não há maneira, neste espaço de atributos, de particionar esses dados em dois grupos de acordo com os rótulos das classes. Portanto, nestes cenários, restrições ML podem ser prejudiciais ao particionamento dos dados, já que dependendo das restrições fornecidas pode-se, entre outras coisas, ocasionar a união de grupos de objetos de classes distintas.
Existem duas abordagens principais para utilizar as restrições: a incorporação delas no pro- cesso de agrupamento e o aprendizado de uma medida de distância específica para o problema (Basu et al., 2008). Na primeira, existem duas frentes ativas de pesquisa: algoritmos que bus- cam partições que satisfazem todas as restrições (Wagstaff e Cardie, 2000; Wagstaff et al., 2001; Klein et al., 2002; Shental et al., 2003; Davidson e Ravi, 2005a; Li et al., 2008; Rothaus e Jiang, 2008; Lu e Peng, 2008; Davidson e Ravi, 2009), e algoritmos que buscam minimizar o número de violações de restrições (Basu et al., 2004b; Bilenko et al., 2004; Basu et al., 2004a; Lange
−2 0 2 4 6 8 10 12 −2 0 2 4 6 8 10 Atributo 1 Atributo 2 Classe 1 Classe 2
Figura 4.1: Exemplo de distinção entre grupos e classes.
et al., 2005; Zhao e Miller, 2005; Davidson e Ravi, 2005b; Law et al., 2005; Grira et al., 2006; Pelleg e Baras, 2007; Lu e Leen, 2007a,b; Hu et al., 2008a,b; Ares et al., 2009; Costa et al., 2009; Benabdeslem e Snoussi, 2009; Li et al., 2009; Zhang e Wong, 2009; Wang et al., 2014; Raghuram et al., 2014). Na literatura de minimização do número de violações de restrições, as restrições são usualmente chamadas de soft constraints, e alguns trabalhos adotam uma genera- lização no conceito de restrições na qual, para cada restrição (ML ou CL), é informada também a confiança do usuário naquela restrição. Conforme já mencionado, neste trabalho tem-se como foco algoritmos que atuam sobre partições rígidas ou probabilísticas dos dados. Por tal razão, algoritmos de ADR baseados em partições fuzzy não estão relacionados. Sugere-se ao leitor in- teressado em algoritmos deste gênero os trabalhos de Bouchachia e Pedrycz (2006) e Medeiros (2010).
Na abordagem baseada no aprendizado de medida de distância, uma restrição ML entre os objetos xi e xj pode ser interpretada como uma indicação de que a distância entre os dois
objetos é pequena. Analogamente, uma restrição CL entre os objetos indicaria que a distância entre eles é grande e, portanto, os mesmos não deveriam pertencer ao mesmo grupo (Wagstaff et al., 2001). Desta forma, é induzida uma métrica de distância kxi− xjkA, A∈ RMxM em que
M é o número de atributos da base de dados (Xing et al., 2002; Bilenko et al., 2004; Basu et al.,
2004b; Bar-Hillel et al., 2005; Chatel et al., 2014). Tais trabalhos podem ser convenientemente categorizados em: algoritmos que aprendem uma métrica por grupo (Bilenko et al., 2004) e aqueles que aprendem uma métrica para todos os dados (Xing et al., 2002; Basu et al., 2004b; Bar-Hillel et al., 2005; Chatel et al., 2014); bem como entre algoritmos que realizam apenas o aprendizado de métrica (Xing et al., 2002; Bar-Hillel et al., 2005; Chatel et al., 2014) e os que integram o aprendizado de métrica no processo de agrupamento (Basu et al., 2004b; Bilenko et al., 2004).