• Nenhum resultado encontrado

A distância não simétrica de Hausdorff entre um conjunto A e um conjunto B, H(A,B), é uma função max-min definida por:

{

}

b a A

H(A,B) = max min d(a,b)

B ∈ ∈           (4.3.32)

Sendo a e b, respectivamente, os pontos dos conjuntos A e B, e d(A, B) uma métrica entre esses pontos. Consideramos que d é a distância euclidiana.

Informalmente, pode-se calcular a distância do conjunto A para o conjunto B, encontrando um ponto a de A, que seja o mais afastado de B, e então calcula-se a distância de a ao ponto mais próximo de B.

Se a distância de Hausdorff de A a B é igual a um valor e, H(A,B)=e , então, qualquer que seja o ponto de A, existe um ponto de B com distância inferior a e. Se estamos num ponto de A temos a certeza que com um “salto”, e, chegamos a B.

Habitualmente, é uma dissemelhança não simétrica, H(A,B) H(B,A)≠ .

Exemplo 4.3.23. Matriz score da variável intervalar

A matriz score correspondente ao vector X= [[37, 38.5], [39, 40], [36, 40], [37, 39], [38, 40]]T das temperaturas [min, max] dos 5 indivíduos, registadas num dia, é dada pela matriz de distância não simétrica:

0 2.0 0 0 1.0 1.5 0 0 1.0 0 X 1.5 3.0 0 1.0 2.0 0.5 2.0 0 0 1.0 1.5 1.0 0 1.0 0 =

Pois:

H([37, 38.5], [39, 40])= 39-37= 2, H([39, 40], [37, 38.5])= 40-38.5=1.5 H ([37, 38.5], [36, 40])= 0, H([36, 40], [37, 38.5])= 40-38.5= 1.5 H ([37, 38.5], [37, 39])= 0, H([37, 39], [37, 38.5])= 39-38.5= 0.5 H ([37, 38.5], [38, 40])= 38-37= 1, H([38, 40], [37, 38.5])= 40-38.5= 1.5, ....

A distância simétrica de Hausdorff, dH(A,B), é, habitualmente, definida por dH(A,B)=max(H(A,B), H(B,A)) (4.3.33). Contudo, utilizaremos a distância não simétrica pois os resultados obtidos nas aplicações mostraram-se muito satisfatórios.

Convém chamar a atenção para o facto das matrizes score, que representam estas variáveis, serem matrizes de distâncias. Como vimos, habitualmente, as matrizes score são matrizes de semelhança. Por isso, quando compararmos variáveis intervalares com variáveis cujas matrizes score são matrizes de semelhanças, utilizaremos a seguinte transformação afim: SH(A,B)= max H(A,B) – H(A,B) (4.3.34).

Se se compararem apenas variáveis intervalares, não é necessário utilizar aquela transformação. Os resultados serão os mesmos, mas teremos que ter isso em atenção quando fizermos a sua interpretação.

4.3.10.7 O que representam os coeficientes s, sLC e PL quando se comparam variáveis

intervalares

O coeficiente bruto s é o produto escalar de duas matrizes de distâncias não simétricas ou das correspondentes matrizes de semelhanças, caso se tenha usado a transformação referida acima (Expressão 4.3.44). O coeficiente sLC é a semelhança padronizada e o coeficiente PL o coeficiente probabilístico.

• Quando a semelhança sLC é fortemente positiva (sLC>>0), i.e., a relação padronizada entre as variáveis é forte e directa, o coeficiente PL toma valores muito próximos de 1 (PL≈1). Neste caso, as unidades estatísticas que estão em relação numa das variáveis também o estão na outra variável. Há uma tendência para emparelhar valores elevados (baixos) de uma das variáveis com valores elevados (baixos) da outra variável, entrando também em consideração com a amplitude dos intervalos. • Quando PL=0.5, a semelhança sLC é nula, i.e., a relação padronizada entre as

variáveis é nula.

• Quando a semelhança sLC é fortemente negativa (sLC<<0), i.e., a relação padronizada entre as variáveis é forte e inversa, o coeficiente PL toma valores muito próximos de

182

0 (PL≈0). Assim sendo, as unidades estatísticas que estão em relação numa das variáveis não o estão na outra variável. Há pois, uma tendência para emparelhar valores elevados (baixos) de uma das variáveis com valores baixos (elevados) da outra e vice-versa, entrando também em consideração com a amplitude dos intervalos.

É importante ver como é que os coeficientes s, sLC e PL se “comportam” quando os aplicamos a dados reais. Optámos por recorrer a dois exemplos. Um exemplo com uma interpretação óbvia dos resultados – os nossos resultados deverão estar de acordo com os que seriam de esperar, baseando-nos no conhecimento que temos sobre o assunto. O outro exemplo apresentado foi escolhido por haver a possibilidade de comparar os resultados que obtivemos com os obtidos por Chouakria et al. (2000), utilizando uma análise em componentes principais simbólica.

Exemplo 4.3.24. Comparação de variáveis intervalares - Temperaturas (Guru et al., 2004; Sousa, 2005)

Os dados consistem nas temperaturas mínimas e máximas, em graus centígrados, registadas durante um determinado ano, em 20 cidades consideradas pelos observadores muito semelhantes e por isso fazendo parte de uma mesma classe, C: C= {0.Amesterdão, 1.Atenas*, 7.Copenhaga, 9.Francoforte172, 10.Genebra, 13.Lisboa*, 14.Londres, 16.Madrid, 20.Moscovo, 21.Munique, 24.NY, 25.Paris, 26.Roma, 27.S. Francisco*, 28.Seúl*, 30.Estocolmo, 33.Tóquio*, 34.Toronto, 35.Viena, 36.Zurique} (Anexo 3). Estas cidades estão situadas a uma latitude entre 40º e 60º, com excepção das assinaladas com um asterisco, *. As cidades assinaladas foram incluídas nesta classe porque, embora se situem a uma latitude entre 0º e 40º, por estarem próximo da costa marítima, têm temperaturas baixas que se assemelham às das cidades que estão situadas a uma latitude entre 40º e 60º.

Interessa-nos comparar os meses do ano, tendo em conta a informação das suas temperaturas mínimas e máximas registadas nestas cidades, e representá-los graficamente. As matrizes de semelhanças S, SLC e PL entre as temperaturas foram obtidas e estão apresentadas no Anexo 3. Observando as semelhanças sLC verificamos que os valores são todos positivos, o que indica a tendência para que, nas cidades consideradas, se emparelhem temperaturas baixas com temperaturas baixas e temperaturas elevadas com temperaturas elevadas, aumentando ou decrescendo os valores dos coeficientes de acordo com a estação do ano a que se refere o mês em que foram registadas as temperaturas. O que acabamos de referir encontra-se bem exemplificado na tabela seguinte, no que se refere, por exemplo, ao mês de Dezembro:

172 Frankfurt.

Tabela 4.3.4. Valores do coeficiente de semelhança sLC entre as temperaturas [min,max] de Dezembro e dos restantes meses do ano retirados da matriz SLC (Anexo 3)

Jan Fev Mar Abr Maio Jun Jul Ago Set Out Nov Dez Dez 7.9768 7.2235 7.0873 5.9717 2.4038 3.4828 3.2104 3.8774 5.4443 6.8342 7.1005 8.3912

Tal como seria previsto, a semelhança das temperaturas [min,max] registadas em Dezembro é máxima quando se relacionam estas com as do próprio mês (s=19321, sLC=8.39, PL≈1), é forte quando se relacionam com as dos meses de Inverno, decrescendo progressivamente nos meses correspondentes à Primavera e atingindo os valores mais baixos nos meses de Verão; a semelhança volta a aumentar, progressivamente, quando se relacionam as temperaturas de Dezembro com as obtidas nos meses de Outono, e o aumento mais elevado observa-se, de novo, quando se voltam a relacionar com temperaturas obtidas em Novembro. Este ciclo de semelhanças, que cresce e decresce, progressivamente, com as estações do ano, só é “alterado” pelo mês de Maio. As temperaturas [min,max] registadas em Maio apresentam, de forma geral, uma semelhança mais fraca com as registadas nos outros meses. Pensamos que resulta do facto de Maio ser o que apresenta: - a menor variabilidade inter-quartis de amplitude térmica (tal como o mês de Junho, com o qual apresenta uma semelhança mais elevada, sLCJun,Mai=4.44), – a amplitude térmica média (12.0 ºC) mais elevada, – e maior variabilidade de amplitude térmica (d.p.=5.84 ºC), devido à existência de outliers introduzidos pelas amplitudes térmicas das cidades 4.Francoforte, 8.Madrid, 20.Zurique e, especialmente, 18.Toronto, neste mês (Figura 4.3.5 e matriz SLC em Anexo 3).

184

Dez_amp Nov_amp Out_amp Set_amp Ago_amp Jul_amp Jun_amp Maio_amp Abr_amp Mar_amp Fev_amp Jan_amp 30 25 20 15 10 5 0 20 4 4 18 20 4 4 20 4 20 4 4 20 20 4 5 20 4 4 20 20 18 15 20 8 8 4 15 20 8 20 8

Figura 4.3.5. Diagramas em caixas de bigodes da distribuição das amplitudes térmicas registadas ao longo dos meses do ano, nas cidades indicadas na classe C. Os outliers são assinalados com os códigos atribuídos pelo SPSS às cidades: 4.Francoforte, 5.Genebra, 8.Madrid, 15.Seúl, 18.Toronto e 20.Zurique.

A interpretação comparativa dos valores do coeficiente s é mais difícil. Basta observar os valores apresentados na tabela que se segue para nos apercebermos disso.

Tabela 4.3.5. Valores do coeficiente de semelhança s entre as temperaturas [min,max] de Dezembro e dos restantes meses do ano retirados da matriz S (Anexo 3)

Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Dez 20738 20191 17424 12990 11237 10113 11282 11984 13218 15608 17109 19321

Para completar o estudo do comportamento destes coeficientes, sob o ponto de vista multivariado, realizámos análises em componentes principais e análises classificatórias hierárquicas ascendentes sobre as matrizes de semelhanças S, SLC e PL (Anexo 3) cujos resultados apresentamos, em parte, na Tabela 4.3.6, na Figura 4.3.6, na Figura 4.3.7 e na Figura 4.3.8. Os gráficos obtidos permitem-nos visualizar as relações entre as variáveis, assim como a existência eventual de grupos de variáveis.

As matrizes S e SLC têm todos os valores próprios positivos, são, pois, matrizes definidas positivas.

Tabela 4.3.6. Resultados obtidos com a ACP da matriz de semelhanças SLC entre as temperaturas [min,max] dos meses do ano nas cidades da classe C

Eixos Valores próprios % de inércia % de inércia acumulada

1 69.62 67.6 67.6

2 18.01 17.5 85.1

O 1º factor é um factor geral, que explica 67.6% da variabilidade total dos dados. O 2º factor, que explica 17.5% da variabilidade total, é o factor que opõe o Verão (meses com temperaturas mais elevadas) ao Inverno (meses com temperaturas mais baixas). No 1º plano factorial (85.1% de variabilidade total explicada) observamos várias associações: a dos meses mais quentes (Junho, Julho, Agosto), a dos meses mais frios (Dezembro, Janeiro, Fevereiro, Março, Novembro, Abril), a dos meses com temperaturas mais moderadas que os anteriores (Outubro e Setembro), enquanto Maio se afasta destes meses devido às características peculiares das suas amplitudes térmicas apresentadas acima e no Anexo 3.

Figura 4.3.6. Representação gráfica do plano factorial (1,2) obtido com a ACP da matriz de semelhanças SLC entre as temperaturas [min,max] dos meses do ano nas cidades da classe C.

Consideramos que o 3º factor, embora explique apenas 5.1% da variabilidade total, é importante. É o factor que representa as amplitudes térmicas observadas nos 12 meses daquele ano: opõe Maio (mês que apresenta, de forma geral, as maiores amplitudes térmicas) a Dezembro (mês que apresenta, de forma geral, as menores amplitudes térmicas). A conjugação deste factor com o 1º (Anexo 3) e com o 2º factor (Figura 4.3.7) faz sobressair a disposição “circular” das temperaturas dos meses do ano, nos respectivos planos factoriais.

186

Figura 4.3.7. Representação gráfica do plano factorial (2,3) obtido com a ACP da matriz de semelhanças SLC entre as temperaturas [min,max] dos meses do ano nas cidades da classe C.

O algoritmo de ACHA (sLC+Ligação completa) permitiu obter a hierarquia e, em particular, no nível 9, a partição que traduz bem o que se passa no espaço factorial constituído pelos três primeiros factores: {Jan, Fev, Mar, Abr, Nov, Dez, Set, Out}, {Mai}, {Jun, Jul, Ag} (Figura 4.3.8).

Figura 4.3.8. Dendrograma obtido com a análise classificatória hierárquica ascendente (sLC+Ligação completa). O nível 9 é o mais importante, de acordo com o critério “estatística de níveis” (Lerman

(1970); Bacelar-Nicolau (1972, 1980)), STAT(9)=6.2377.

Constatamos, assim, que o coeficiente sLC entrou em consideração, não só com os valores mínimo e máximo dos intervalos das temperaturas, mas também com a sua amplitude, permitindo representar bem a continuidade “circular” das temperaturas dos meses, ao longo das estações do ano, nestas cidades.

O coeficiente PL, como habitualmente, conduziu a semelhanças mais elevadas e como que “esmagou” as distâncias entre as temperaturas registadas ao longo dos meses do ano (Anexo 3). O coeficiente básico s permitiu comparar as temperaturas de forma interpretável. No entanto, neste caso, é preferível usar o coeficiente sLC para comparar estas variáveis intervalares.

Não nos é possível comparar os resultados que obtivemos com os obtidos por Guru et al. (2004) e Sousa (2005), pois estes autores interessaram-se pela classificação das cidades.

Exemplo 4.3.25. Comparação de variáveis intervalares - Óleos e gorduras (e.g., Chouakria et

al., 2000; Ichino, 1988)

Os dados referem-se a oito óleos e gorduras descritos por quatro características quantitativas do tipo intervalar: “Gravidade específica”, “Ponto de congelação”, “Valor de iodo” e “Saponificação” (Tabela 4.3.7). Os valores, [x , x ]ij

ij que se encontram na célula (i,j) desta tabela indicam que a j’ésima característica de um óleo que pertença à classe i toma valores entre xij e xij.

Tabela 4.3.7. Descrição de oito classes de óleos e gorduras por quatro características

intervalares: gravidade específica (gra), ponto de congelação (fre), valor de iodo (iod) e saponificação (sap) (Chouakria et al., 2000)

Óleos e gorduras Gravidade específica (gra) Ponto de Congelação (fre) Valor de Iodo (iod) Saponificação (sap) Linhaça [0.93 , 0.94] [-27.00 , -18.00] [170.00 , 204.00] [118.00 ,196.00] Perilla [0.93 , 0.94] [-5.00 , -4.00] [192.00 , 208.00] [188.00 ,97.00] Semente de Algodão [0.92 , 0.92] [-6.00 , -1.00] [99.00 , 113.00] [189.00, 98.00] Sésamo [0.92 , 0.93] [-6.00 , -4.00] [104.00 , 116.00] [187.00 ,193.00] Camélia [0.92 , 0.92] [-25.00 , -15.00] [80.00 , 82.00] [189.00 , 193.00] Azeite [0.91 , 0.92] [0.00 , 6.00] [79.00 , 90.00] [187.00 , 196.00] Sebo de bovinos 173 [0.86 , 0.87] [30.00 , 38.00] [40.00 , 48.00] [190.00 , 199.00] Sebo de suínos [0.86 , 0.86] [22.00 , 32.00] [53.00 , 77.00] [190.00 , 202.00]

Com o objectivo de reduzir o número de características descritivas, Chouakria et al. (2000) usaram dois métodos de análise em componentes principais simbólica. Apresentamos a representação gráfica das correlações entre as características iniciais e as componentes principais (Figura 4.3.9), obtidas com o método dos vértices174 por Chouakria et al. (2000).

173 Gordura de vaca. Beef tallow, em inglês. 174 Vertices method, em inglês.

188

Figura 4.3.9. Método dos vértices – Diagrama de dispersão da correlação entre as componentes principais, cp1, cp2, e as características originais. (Valores próprios: 2.732 e 0.809, respectivamente; % de variabilidade: 68.29 e 20.23, respectivamente).

Em contrapartida, para atingir aquele objectivo, utilizámos análises em componentes principais e análises classificatórias hierárquicas ascendentes sobre as matrizes de semelhanças SLC e PL (Tabela 4.3.8 e Anexo 4, respectivamente) entre as quatro características referidas, uma vez que as unidades de medida das quatro características descritivas são diferentes. Utilizando estes coeficientes não é necessário centrar e reduzir as variáveis.

Tabela 4.3.8. Matriz de semelhanças SLC entre quatro características intervalares dos óleos e das gorduras

Gra Fre Iod Sap

Gra 4.4605

Fre 3.7010 4.3997

Iod 1.7202 1.0573 4.6064

Sap 0.1651 0.8432 1.5975 2.6567

A matriz SLC é definida positiva, enquanto a matriz PL não o é (Tabela 4.3.9 e Anexo 4, respectivamente). O 1º plano factorial explica 84.7% da variabilidade total (Tabela 4.3.9). A 1ª componente principal caracteriza-se essencialmente pela “Gravidade específica”, pelo “Ponto de congelação”, e pela oposição destas características a “Saponificação” e a “Valor de Iodo” (Figura 4.3.10).

Tabela 4.3.9. Resultados obtidos com a ACP da matriz de semelhanças SLC entre quatro características intervalares dos óleos e das gorduras

Componente

1 2 3 4

Unidades de inércia

(valores próprios) 9.28 4.38 2.06 0.41

Variabilidade Explicada (%) 57.53 27.20 12.75 2.52 Var. Exp. Acumulada (%) 57.53 84.73 97.48 100.00

Figura 4.3.10. Representação gráfica do plano factorial (1,2) obtido com a ACP da matriz de semelhanças SLC entre as quatro características intervalares dos óleos e gorduras.

Por sua vez os resultados obtidos com o algoritmo de ACHA (sLC+Ligação única) complementam bem o que vimos no primeiro plano factorial. A partição obtida no nível 2, a melhor segundo o critério da estatística de níveis, também foi obtida por todos os outros algoritmos que utilizámos: {Gra, Fre}, {Iod}, {Sap} (Figura 4.3.11).

Figura 4.3.11. Dendrograma obtido com a análise classificatória hierárquica ascendente (sLC+Ligação única). O nível 2 é o mais importante, de acordo com o critério “estatística de níveis” (Lerman (1970);

Bacelar-Nicolau (1972, 1980)), STAT(2)=1.5275.

Os resultados obtidos com as duas análises – método dos vértices e ACP da matriz SLC – apresentam em comum a “oposição” das variáveis “Gravidade específica” e “Saponificação”.

190

A diferença reside na proximidade de “Gravidade específica” a “Valor de iodo”, opondo-as a “Ponto de congelação”, no método dos vértices (Figura 4.3.9).

Estes dados foram utilizados por diversos autores (e.g., Ichino, 1988; Ichino e Yaguchi, 1994; Chouakria et al., 2000; Sato-Ilic e Oshima, 2006) para exemplificarem novos tipos de análises em componentes principais e de análises classificatórias sobre dados simbólicos. Sousa (2005) também os utiliza para obter partições dos óleos e das gorduras, utilizando a ACHA baseada nos coeficientes de afinidade generalizados para dados intervalares.

4.3.10.8 Variáveis modais

No caso mais simples, uma variável modal, Y, com domínio Y definido num conjunto de objectos E={a, b,...} é uma variável conjunto de valores com uma medida ou uma distribuição (de frequências, de probabilidade ou de pesos) associada ao conjunto das categorias Y(k) de domínio Y, Y(k)⊆ Y, definidas para todo o objecto k do conjunto E.