• Nenhum resultado encontrado

1.4 Estrutura do Trabalho

2.1.2 Diferentes tipos de var´aveis

O agrupamento ocorre nos dados resultantes de uma s´erie de escolhas que ir˜ao influenciar os resultados da an´alise. Tipicamente, os dados s˜ao descritos em uma matriz de indiv´ıduos- vari´aveis por um valor ´unico. Em aplicac¸˜oes reais, onde a principal preocupac¸˜ao ´e levar em conta a variabilidade e riqueza de informac¸˜oes nos dados, ´e comum lidar com dados complexos e heterogˆeneos (ou mistos). O que resulta em que cada posic¸˜ao na matriz de descric¸˜oes pode conter n˜ao apenas um ´unico valor, mas tamb´em um conjunto de valores, um intervalo de valores ou uma distribuic¸˜ao de um conjunto de valores. Dir-se-´a, portanto, que o agrupamento baseia-se em uma ”matriz de descric¸˜oes simb´olicas”.

Descric¸˜ao cl´assica de uma vari´avel

Chama-se vari´avel qualquer caracter´ıstica de uma entidade (pessoa, organizac¸˜ao, objeto, evento, etc.), que pode ser expressa como um valor num´erico (medida) ou codificado (atributo). Os poss´ıveis valores de uma vari´avel, para o conjunto de indiv´ıduos estudados, s˜ao chama- dos modalidade da vari´avel. Em outras palavras, as modalidades correspondentes aos poss´ıveis valores da vari´avel estat´ıstica. Em estat´ıstica, uma vari´avel estat´ıstica define uma partic¸˜ao sobre uma populac¸˜ao, cada indiv´ıduo pertence a uma e uma ´unica modalidade.

As informac¸˜oes sobre o problema a ser resolvido se apresenta, na maioria das vezes, sob a forma de tabelas ou matrizes; onde as linhas representam exemplos ou casos a serem estudados ou tratados. Al´em disso, vari´aveis, tamb´em chamados atributos, que descrevem um caso podem

ser de v´arios tipos.

A seguir uma descric¸˜ao dos diferentes tipos de vari´aveis e suas caracter´ısticas:

• Disjuntivas: podem admitir dois estados (exemplo: verdadeiro ou falso);

• Categ´oricas n˜ao ordenadas: as diferentes categorias contˆem nenhuma noc¸˜ao de ordem (exemplo, a cor de cabelos);

• Categ´oricas ordenadas: as diferentes categorias podem ser classificadas (exemplo: faixa de atribuic¸˜ao de conceitos);

• Cont´ınuas: podem tomar valores num´ericos em que os c´alculos, tais como a m´edia, po- dem ser realizados.

Observac¸˜ao 1: Os tipos de vari´aveis influenciam fortemente nas t´ecnicas utilizadas no pro-

cesso de Minerac¸˜ao de Dados.

Descric¸˜ao simb´olica de uma var´avel

Como parte da an´alise de dados simb´olicos introduzida por (DIDAY; KODRATOF, 1991), a definic¸˜ao de uma vari´avel foi estendida afim de poder descrever um indiv´ıduo por vari´aveis Yh com v´arias modalidades de dom´ınio de observac¸˜ao Oh(CHAVENT, 1997; EL-GOLLI, 2004). O dom´ınio de chegada de uma var´avel Yha descric¸˜ao simb´olica ser´a ent˜ao modificada em relac¸˜ao `a vari´avel cl´assica ou convencional Oh. Neste contexto, distinguem-se, geralmente, trˆes tipos de vari´aveis a descric¸˜ao, a saber: multi-valoradas, modais e vari´aveis taxonˆomicas ou estruturadas.

Vari´aveis a descric¸˜oes multi-valoradas

Considera-se uma vari´avel Yh que pode ser descrita por v´arios valores do dom´ınio de observac¸˜ao Oh.

- Se o dom´ınio de observac¸˜ao Ohfor quantitativo (cont´ınuo ou discreto), a descric¸˜ao multi-valorada de Yh ´e um intervalo de valores, e o dom´ınio de chegada ∆hde Yh ´e o conjunto de intervalos fechados e limitados sobre Oh. Por exemplo, a vari´avel Yh =

tempo ideal(em minutos) que um trem pode gastar circulando em um determinado segmento da malha com determinadas condic¸˜oes clim´aticas = [117,162].

- Se o dom´ınio de observac¸˜ao Ohfor qualitativo nominal, a descric¸˜ao multi-valorada de Yh ´e um conjunto de valores, e o dom´ınio de chegada ∆h de Yh ´e conjunto de

subconjuntos de Oh. Por exemplo, a vari´avel Yh= grau de aderˆencia de circulac¸˜oes realizadas pelo trem AA1 com relac¸˜ao ao planejamento pode pegar os valores Yh (AA1) ={convergente, divergente}.

Chavent (1997) afirma que no n´ıvel semˆantico, as descric¸˜oes multi-valoradas permitem traduzir os conceitos de imprecis˜ao e variabilidade na descric¸˜ao dos indiv´ıduos.

Suponha-se que Yi seja um indiv´ıduo que tenha como descric¸˜ao relativa `a vari´avel tipo

de cˆonica o conjunto de valores Yh(Xi) ={c´ırculo, elipse}. Isto pode corresponder a uma imprecis˜ao devido a uma d´uvida: a cˆonica em quest˜ao ´e um c´ırculo ou elipse. Se, de outra parte, a vari´avel velocidade prevista do trem, Yh (velocidade)=[12.42, 14.50], isto pode corresponder a um ru´ıdo: a velocidade do trem pode variar entre 12,42km/h e 14,50km/h. No primeiro caso, o conceito da verdadeira cˆonica n˜ao faz muito sentido, pois depende do ponto de vista de cada indiv´ıduo. J´a no segundo caso, pode-se supor que a verdadeira velocidade do trem pertence ao intervalo [12.42, 14.50].

Sob outra perspectiva, um intervalo ou conjunto de valores pode permitir introduzir o conceito de variabilidade na descric¸˜ao. Por exemplo, o conjunto Ensolarado, nublado,

chuvoso pode exprimir a lista de todas os estados do tempo. O intervalo [122,158] pode exprimir a variac¸˜ao do tempo, em minutos, que um trem pode gastar num percorrendo um determinado segmento. Trata-se aqui de variabilidade devido ao car´ater temporal da vari´avel.

Vari´aveis a descric¸˜ao modais

Diz-se de uma vari´avel Yhque pode descrever-se por uma func¸˜ao definida sobre o dom´ınio de observac¸˜ao Ohem [0,1].

Esta func¸˜ao pode ser uma distribuic¸˜ao de probabilidade sobre Oh ou uma func¸˜ao de composic¸˜ao de conjunto fuzzy de Oh. Exemplificando, poder-se-´a indicar que a velo- cidade de um trem ´e uniformemente distribu´ıda sobre o intervalo [12.42, 14.50], ou ainda normalmente distribu´ıda em torno do valor 13.46. Neste caso, a velocidade do trem ´e descrita pela func¸˜ao da densidade da lei normal de m´edia 13.46 e de desvio padr˜aoσ . Ao contr´ario do caso multi-valorado, em que os valores que uma vari´avel assume traduz a imprecis˜ao sem contudo dar um grau de certeza sobre esses valores, as vari´aveis mo- dais s˜ao usadas para converter o conceito de imprecis˜ao para o conceito de incerteza. Por exemplo, para a vari´avel Yh = tipo de cˆonica onde o dom´ınio de observac¸˜ao Oh ´e defi- nido por um conjunto de valores precisos, um grau de incerteza pode ser fornecido para converter o conceito de imprecis˜ao na descric¸˜ao de dados. Poder-se-´a, desta forma, por exemplo, dizer que o tipo do objeto ´e ”circular”com 2/3 de certeza e ”elipsoidal”com 1/3

de certeza.

Vari´aveis taxonˆomicas ou estruturadas

Os dom´ınios de observac¸˜ao das vari´aveis de agrupamento `as vezes podem ser munidos de conhecimentos adicionais chamados conhecimentos de dom´ınio. Estes conhecimen- tos adicionais s˜ao definidos no caso de descric¸˜oes mono-valorado, entretanto podem ser considerados no tratamento sobre descric¸˜oes multi-valorado (por exemplo, no c´alculo da medida de similaridade entre indiv´ıduos em um processo de agrupamento autom´atico).

`

As vezes, acontece que um especialista possa fornecer uma estrutura de valores do dom´ınio de observac¸˜ao como uma ´arvore ordenada, um grafo direcionado, etc. De acordo com (ICHINO; YAGUCHI, 1994; MICHALSKI; STEPP, 1983), uma vari´avel cujo dom´ınio de observac¸˜ao ´e representado por uma estrutura hier´arquica ´e chamado vari´avel taxonˆomico ou estruturada.