• Nenhum resultado encontrado

Um sistema computacional para análise de agrupamentos

N/A
N/A
Protected

Academic year: 2021

Share "Um sistema computacional para análise de agrupamentos"

Copied!
103
0
0

Texto

(1)José Eduardo Corrente Bel. em Matemática. Orientador: Prox.. Dr. Cássio Roberto de Melo Godoi. Tese apresentada à Escola Superior de Agricultura "'Luiz de Queiroz ... da Universidade de São Paulo. para obtenção do titulo de Doutor em Agronomia, Área de Concentração : Estatística Experimentação e Agronômica.. PI RACI CAB A Estado de São Paulo - Brasil novembro - 1991.

(2) Ficha catalográfica preparada pela Seção de Livros da Divisão de Biblioteca e Documentação - PCAP/USP C824s. Corrente, José Eduardo Um sistema computacional para análise de agrupamentos. Piracicaba, 1991. 92p. Tese - ESALQ Bibliografia. 1. Análise multivariada - Informática 2. Estatística aplicada I. Escola Superior de Agricultura Luiz de Quei­ roz, Piracicaba CDD. 519.530285.

(3) JOSÉ EDUARDO CORRENTE. Aprovada em: 02.12.1991 Comissão julgadora: Prof. Dr. Cássio Roberto de Melo Godoi a.. a.. ESALQ/USP. Prof . Dr . Maria Cristina Stoli Nogueira. ESALQ/USP. Prof. Dr. Hilton Thadeu Zara�e do Couto. ESALQ/USP. Prof. Dr. José Carlos Barbosa. FCAVJ/UNESP. Proi. Dr. Carlos Roberto Padovani. IBBMA/UNESP. Orierntador.

(4) ii.. À minha :fam.11 ia o:fereco.

(5) iii. AGRADECIMENTOS. Ao Prof. Dr. Cássio Roberto de Melo Godo! pela orientacão deste trabalho. Ao Fábio Regero pela elaboração dos programas do sistema. À Luciane. Braj ão. e Maria Lúcia. Coelho. pela. amizade e incentivo recebidos. Às amigas Maria del Pilar,. Rosemary Ferreira. Viégas. Ivan! Pozar Otsuk. Liciana V. A., S. Chalita e Roseli Aparecida Leandro pelo companheirismo e apoio constantes. Aos colegas do Depart.amento de Matemática e Est.at.íst.ica da ESALQ/USP,. professores e funcionários,. pela. at.encão sempre. A colaboraram trabalho.. para. t.odos que. que. fosse. diret.a possível. ou a. indiret.ament.e. realização. deste.

(6) iv. SUMÁRIO. RESUMO.................................................... vi. SUMMARY. . • • • .. • • • . • • ... • • • • • • • . • • . • . • . • • • • • • . • • . • • • • • • • • viii 1. INTRUDUCÃO................ ......... ..... ........... • ....1. a. REVISÃO DA LITERATURA..... ... ...... ......... ............3 Z.1 Medidas de Similaridade e Dissimilaridade...........9 Z.1.1. Medidas de Similaridade e Dissimilaridade para. dados quantitat.ivos.......................... 6. Z.1.1.1. Distância Euclideana................ 6 a.1.1.a. Distância Euclideana Média..........7. Z.1.1.3. Distância. a. 1.1. 4.. Generalizada. de. Mahal anobis..................... . ... 7. Valor Absoluto ...................... 9. Z.1.1.6. Distância de Minkowski.............10. Z.1.1.6. Coeficiente de Gower...............10 Z.1.1.7. Coeficiente de Similaridade de. Catt.el.............................10. Z.1.1.8. Coeficient.e de Camberra............11 Z.1.1.9. Coeficient.e de Correlação..........11. a.1.a. Medidas de similaridade e dissimilaridade para. dados qualit.at.ivos..........................12 Z.1.2.1. Dist.ância Euclideana Média.........13 Z.1.2.2. Coeficient.e. de. Concordâncias. Simples............................14. 2.1.2.3. Coeficient.e de Concordâncias. Posi t.i vas..........................19. 2.2. Algorít.mos Para Análise de Agrupament.o............19 2.2.1. Métodos Hierárquicos.......................19 2.Z.1.1. Mét.odo da Mínima Variância de Ward..............................19.

(7) V.. 2.2.1.2. Método da --·Ligacão Simples ou do ; 1 Vizinho Mais Pr6ximo..............28 2.2.1.3. Método dá Ligação Completa ou do. Vizinho Mais Distante 34 2.2.1.4. Método da Ligação de Densidades Método do k-ésimo Vizinho Mais Pr6xi mo...........................38 2.2.2. Métodos de Partição........................44 2. a. 2.1. Método "Leadi ng"..................45 2.2.Z.2. Método das k-Médias...............47 3. METOOOLOGI A............................................ 5Z 3.1. Con�iguração e Montagem do Sistema................52 3.2. Técnicas para Análise de Agrupamentos.............57 4. RESULTADOS E DISCUSSÃO.... .............................58 4.1. Descrição do Sistema. .............................58 5. CONCLUSÕES............... . .............................89 REFERtNCIAS BIBLIOGRÁFICAS................................ 91.

(8) vi.. UM SISTEMA COMPUTACIONAL PARA ANÁLISE DE AGRUPAMENTOS. Autor: José Eduardo Corrente Orientador:. Prof". Dr. Cássio R. de M. Godoi. RESUMO A análise de agrupament,os t,em sido ut,ilizada com freqüência na. experimentação. agronômica,principalment.e. nas áreas de Genét.ica, Melhorament,o de Plantas e Animais e Ciências Florest,ais. A dificuldade surge.. no ent,ant,o, da falt,a de. um sistema simples que permi t.a ao pesquisador analisar os dados. Assim.. est,e. t.em. trabalho. o. objet,ivo. de. apresent,ar um sistema de análise de agrupament.os, segundo a sugestão. de. SPATH. (1980),. onde. se. considera. os. dados. quant,it,ativos. qualit,ativos nominais e ordinais em separado. construindo uma matriz de distância O sistema.. única.. construído em linguagem Pascal.. do estilo interativo de árvores de menus.. é. Possui opções de. ent,rada para os três tipos de dados considerados, que podem ser lidos via teclado ou arquivo texto..

(9) vii.. Possui Distância Euclideana, Distância. de. Coef'iciente Simples,. a. ainda. a. para o. Jaccard.. Distância. opcões. Distância. Minkowsky.. de. as. de. Euclideana. dados. a. Média. e. a. quantitativos,. e. o. Coef'iciente. Euclideana. medi das _-- como. Média. e. de a. Concordância Distância. de. Sokal, para dados qualitativos nominais e ordinais. A matriz de distância única, con1orme sugerida por SPATH (1980). é construída através da atribuição de um. peso para cada matriz de. distância parcial.. e. a. seguir.. opta-se por um dos métodos de análise, que pode ser o método de partição ou hierárquico. O método de partição implementado no sistema é chamado método. "Leading" e,. o hierárquico,. é o método do. vizinho mais próximo ou da ligação simples. O sistema também of'erece opções de. saída dos. resultados que podem ser f'ei tas via impressora ou arquivo texto..

(10) viii.. A COMPUTACIONAL SY-SfEM FOR CLUSfER ANALYSIS Author: José Eduardo Corrente. Adviser: Cássio R.M.Godoi. .SUMMARY. Cluster analysi s has been :frequently used in Agr-onomy.. mainly. in Genetics. .Improvement. o:f. Plants. and. Animals and Forest Sciences. The lack. o:f. a. di:fficulty. simple. arises.. however.. system. thal. allows. lhis. work. intends. lhe. due. to. the. researcher. to. introduce. a. analyse his data. Thus. computing. syst.em. suggest.ion quant.ita t..i ve •. f'or. cl ust.er. SPATH. of'. nominal. analysi s.. (1980) •. and. to. according. where. ordinal. system.. construct.ed in. was elaborat.ed in menu tree style. for t.he three kinds o:f data, or text.. file.. t..he. considers. qualit.ative. separately. with single matrix o:f distances Toe. one. to. data,. as a result. Pascal. language.. It. has opt.ions o:f input.. t.hat. may be read via keyboard.

(11) ix.. lt,. st.ill has.. t.he opt.ion of. measurement.s. as. t.he Euclidean Dist.ance, t.he Mean Euclidean Dist.ance and t.he Minkowsky Dist.ance. Coeficient... t.he. f'or t.he quant,it,at,ive dat,a,. Simple. Concordance. and Jaccard. Coeficient,. Euclidean Distance and t.he Sokal Dist.ance,. t,he. Mean. f'or t.he nominal. and ordinal qualitat,ive data. Toe single mat.rix of dist.ances. the sugest,ion of SPATH (1980) •. according t.o. is const.ruct.ed t.hrough t,he. atri but.ion of' a weight. f'or each di st.ance matri x, choosing. one. of'. t.he. analysis. met.hods,. t.hat. and t..hen •. may. be. the. part..ition or hierarchical met.hod. Toe partition method implemented in the system is cal1ed. "Leading". met.hod and t.he hierarchical is the. nearest neighbour method or single linkage met,hod. Toe system also of'f'ers output can be done via print.er or text.. f'ile.. options.. t,hat,.

(12) 1.. 1 • INTRODUÇÃO. Em muitos casos é comum ef'etuarem-se medi das de naturezas distintas de um conjunto de unidades amostrais. Isso. frequentemente. é. agronômicos.. t·1 crestais.. objetiva-se. encontrar. etc.. e. em de. melhor. a. similar idade. de. padrões. observado. ou. ensaios. biol6giçç,s.. posse dessas. maneira. de. medi das,. descrever• os. dissimilaridade. mútuas. do. métodós�.-.que .-pi::,d�rp. �er. conjunto de unidades. Dentre usados. dif"erentes. propósit.o.. este. com. os. destaca-se . a. Análise. de. Agrupamentos. Assim. C objetos ,. dado. indi ví duos ,. variáveis.. o. um. conjunto. entidades •. interesse. está. etc. ). em. m. de. observações. medidas. obter. um. segundo. esquema. n. que. possibilite reunir as unidades em um número de grupos tal que. exista. homogeneidade. dentro. e. heterogeneidade. entre. grupos. segundo algum critério conveniente de homogeneidade. A Análise de .Agrupamentos constitui um método multivariaao. com. o. objetivo. de. propor. uma. estrutura. classif'icatória ou de reconhecimento de grupos. As. técnicas. de. agrupamentos. :foram.

(13) 2.. desenvolvidas por analist.as:. de problemas aplicados.. ênfase à solução de problemas específicos, out.ros. campos. Análise. da. ao contrário de. Mult.ivari ada,. teoricament.e mais fundament.ados.. dando. se. que. acham. Na análise de agrupamentos.. as afirmativas empíricas nem sempre tem respaldo t.eórico. Muit.as técnicas são propostas.. mas não há ainda uma t.eoria. generalizada e amplamente aceita. Para. a. proceder. se. uma. análise. de. agrupamentos, existem diversos mét.odos e diversas propostas de análise-, dependendo do t.ipo de dados considerado. O freqüente. a. de. técnicas. de. agrupamento. partir do desenvolvimento da. possi bi 1 it.ou elementos. uso. o. surgimento. através. de. de. critérios. informática. algorítmos de. tornou-se. para. otimização,. que. agrupar. até. ent.ão. inviáveis. dadas as dificuldades de cálculo. As:sim o presente trabalho t.em o obj et.ivo de um. construir facilidades medidas. de. comput.acional. sist.ema. de. ent.radas. simi 1 aridade. e. saídas, ou. com. ef'i cient.e. vários. dissimi1 aridade. t.ipos entre. com de as. observações e alguns dos algorít.mos mais usados e aceit.os, uma. vez. que. os. sistemas. disponíveis. para. esse. t.ipo. de. análise nem sempre são simples de manipular e também são rest.rit.os em termos de opções de mét.odos de análise..

(14) 3.. 2.REVISÃO DA LITERATURA A idéia básica da análise de agrupament.os é que. dado. o. x. • = [ x. , x. , ...• x. \.. \.!l. de. observações. ] ,. devemos adot.ar algum critério em. conjunt,o. \. 2. \. p. X. t. •. X ,• • . ,. 2. X. n. •. onde. que se t,enha coesão int.erna dos objet.os e isolament.o ext.erno entre. grupos,. isso. devido. ao. �at.o. de. não. se. t.er. uma. derinição �ormal de agrupament.os segundo CORMACK (1971). Sendo (1990). pode-se. assim,. adotar. a. de. acordo. seguinte. com. BUSSAB. classi�icacão. et. ai i i. para. as. técnicas de análise de agrupament.os: 1) TÉCNICAS HIERÁRQUICAS - as observações são agrupadas pelas suas dist.âncias,. isto é.. t.omando-se n. agrupament.os. como pont.o de partida, os indivíduos são agrupados passo a passo at.é que todos tenham sido agrupados num único grupo. A caract.erística desse processo é que, objet.o este não poderá ser passos segui nt.es. representados. uma. vez. alocado. um. realocado em out.ro grupo nos. Os estágios de análise são usualmente. gráricamente. por. meio. de. árvore, comument.e chamado de dendrograma.. um. diagrama. de.

(15) 4.. 2). TÉCNICAS. produzem. uma. DE. PARTI CÃO. partição do. os. conjunto. agrupament.os de. objetos.. obtidos. Para. esta. técnica é preciso que se tenha a pré-�ixação dos critérios que produzam medidas sobre a qualidade da partição de cada etapa.. O. uso. de. métodos. de. partição. pressupõe. também. o. conhecimento do número de componentes da partição desejada.. 3). TÉCNICAS. DE. COBERTURA. os. agrupamentos. obtidos. recobrem o conjunto de objetos, mas podem possuir indivíduos comuns. As. técnicas. hierárquicas. podem. ainda. ser. subdivididas em dois tipos:. i) Aglomerativas - onde, dos. n. através de adesões sucessivas. objetos, vão sendo obtidos n-1. n-2.. grupos.. até. reunir todos os objetos num único grupo.. ii) Divisivas - partem de um único grupo e, por divisão, vão sendo obtidos 2, 3, etc.. grupos.. O primeiro estágio na maioria dos métodos de análise. de. agrupamentos. é,. a. partir. da. matriz. de. dados. de ,a obtenção da matriz S ou D Cn x n) X =[X ] i.j n P similiaridades ou dissimilaridades. medidas das relações entre os pares de indivíduos. dois. individues. são. pr6ximos. Alta similaridade indica que em. relação. ao. conjunto. de.

(16) 5. variáveis,. enquant,o. que. alta. dissimilaridade. indica. o. cont-rário. Temos. uma. série. de. medidas. de. proximidade. Csimilaridade ou dissimi 1 aridade) e a escolha de qual usar dependerá do conjunt,o de dados disponível e, principalmente, do significado de semelhança que se deseja medir. 2. 1.. MEDIDAS DE SIMILARIDADE E DISSIMI LARI DADE.. Sejam P e Q dois pontos de IR. r-. do conjunto de. objetos de interesse.Uma função real dCP,Q) é uma distância se possui as seguint-es propriedades: i). dCP,Q)=dCQ,P) (simetria);. iO dCP,Q) ::= O; i i i) dCP • P)=O; iv) dCP,Q)=O se e somente se P=Q; v). dCP.Q) � dCP,R). +. dCR,Q) (desigualdade triangular).. Para alguns a utores, dentre estés. MARDIA. et. al. i i (1980). mesmo que C iv) e Cv) não est,ejam sat.is:feit,os. dCP. Q) é ainda chamado ent-re P e. de. coe:ficiente de dissimi1 aridade. Q.. O t-ermo dissimilaridade apareceu em função de que à medida que dCP. Q) cresce.. P e. Q. tern.am-se cada vez. mais dissimilares. Desse mesmo modo. podemos definir uma medida.

(17) 6. de similaridade. Assim. dados dois pontos de. E e. simi 1 aridade entre. Q.. E. denotada. e Q. uma medida. por. sC P. Q).. deve. satisfazer as seguintes propriedades: i> sCP.Q) = sCQ.P); ii> 1 sCP,Q) 1 � O; iii> sCP,Q) cresce à medida que a semelhança entre. E. e. Q cresce. Apresentamos. a. seguir. algumas. medidas. similaridades e dissimi1 aridades • como citado em. de. BUSSAB e t. al.ii (1990). 2. 1. 1. MEDIDAS DE SIMILARIDADE E DISSIMI LARIDADE PARA DADOS QUANTITATIVOS. 2.1.1.1. DISTÂNCIA EUCLIDEANA. Considere a. matriz. X. de. coardenadas. reais ,. como o descri t..or dos indi vi duas que ser ão investigados.. A. medida mais conhecida para indicar a proximidade entre dois indivíduos. i. d. .. t.. ,. t.'. e. i". é a distância Euclideana ,dada por:. X. .. \.J. -. X. .. \.'J. f]. 1./2.

(18) 7.. ou em linguagem matricial:. d. .. t. ,. l.. "'. = [. e X.. -. t. X. .,. ) • l. e X.. l... - X. "' ). ]. .t/2. 1.. 2.1.1.2. DISTÂNCIA EUCLIDEANA MÉDIA. A cresce. o. razoável. distância. número. de. Euclideana. caract.eres. de contornar esse. cresce. (variáveis).. à. medida Uma. que. maneira. problema é dividir esse. valor. pela raiz quadrada do número de variáveis, isto é. Â. i.,i.'. =. d ... l.,l.'. Essa distância é apenas um reescalonamento da distância. anterior,. possuindo. as. mesmas. propriedades. e,. portanto,. produzindo os mesmos resultados se submetidos às. técnicas. de. Análise. de. Agrupamentos.. Ent.ret.ando,. esse. coericiente pode ser usado na ausência de dados para algumas variáveis C "mi ssi ng val ue ") .. 2.1.1.3. DISTÂNCIA GENERALIZADA DE MAHALANOBIS. A distância generalizada de Mahalanobis entre as médias amostrais� e�• é dada mat.ricialment.e por.

(19) -. 8.. (. X.. l.'. ). onde S é a mat.riz de dispersão amost.ral comum à t.odas as unidades,. X. i.. e. X , são vetores p-dimensionais referent.es i.. às médias dos grupos. �e!_'. i�i•. i,i'=1.2, ... ,n.. Pode-se. t.ambém usar a mat.riz de correlacão amostral R no lugar da mat.riz de dispersão S. Essa variabilidade também o. grau. de de. dist.ânci a. cada. uma. além. das. correlação. de. ponderar. component.es •. ent.re. elas.. leva. Est.e. pela. em conta. fat.o. t.orna. muito difícil a interpretação dos result.ados obtidos. Exemplo.. Suponha. que. pont.os. são. medi dos. segundo. o. vetor. Cx ,x) com média C0,0) e matriz de correlações dada por: i.. 2. e são dados os pont.os x. = C0,0) e x. = C1,1). l.. 1.'. A distância de Mahalanobis ent.re os indivíduos !_ e. !.:. é:.

(20) 9.. onde 1. [ _:. Efetuando-se o produto. t.emos que:. 2 Di. ,, i. 1. J. +. D.. r. .. l. .. \.. Analizando o valor de D... • observamos que:. 1..,t ... Di. ' i.'. =. Isso Euclideana,. {. 1. -' -✓e:. mostra. r. =. 1. se. r =. o. que. distância. a. se se. +oo. de. r. ➔. .,. -1. contráriament.e. à. dis:t.ância. depende. Mahalanobis. das. correlações entre as variáveis. 2.1.1.4. VALOR ABSOLUTO. Em vez dos desvios quadráticos,. é muito comum. o uso do valor abs:olut.o:. d ... 'L,t. .... -2. j=!f.. w.. X.. l..J. J. onde os w. • s representam as pender ações par a as variáveis. J. Os. valores mais usados. são. os. O).. =. 1. ou. to= j. !f.. Essa.

(21) 10.. medida é conhecida como mét-ri ca "ci t y-block. 11•. 2.1.1.5. DISTÂNCIA DE MINKOWSKI. Uma. generalização. da. dist-ância. Euclideana. é. dada por: d. i,i.'. =. X.. 1.J. X.. 1 1.'J. k ]1./k. onde os to. • s represent-am as poderações para as variáveis e J � é um int-eiro. qualquer.. 2.1.1.6. COEFICIENTE DE GOWER. Esse. coeficient-e. é. baseado. na. proporção. da -. variação relat-iva à maior discrepância possível. d. .. 'L.,\..... = -log1.0. i. j j x. X. . l. , J. ma.xCx .) J. onde t-emos dent-ro do somatório um t-ipo de padronização das variáveis.. 2.1.1.7. COEFICIENTE DE SIMILARIDADE DE CATTEL O coeficient-e de similaridade de Cat-t-el é dado por.

(22) 11.. 2. e ... 1.. ,.1.. onde. é. "". a. 2. (. p. ( p. -. 2. -. 2. distância. 3 3. ) ). d.. 2. . ,. 1. • 1.. +. d. 2. i.. ,. i _.. Euclideana. com. variáveis. padronizadas. Uma outra rorma dessa medida é devida a Cattel e Coutter CCORMACK, 1971), onde é reita uma outra correção. 2.1.1.8. COEFICIENTE DE CAMBERRA. Fornece a proporção da di�erenca em relação ao total. 1. X. .. 1. J. - X.. .. 1. • J. 2.1.1.9. COEFICIENTE DE CORRELAÇÃO Dentre os coe�icientes de similaridade o mais empregado é o coe�iciente de correlação de Pearson de�inido.

(23) 12.. por:. Cx . . _}: \. J i J=. r- i.,i,. /1} hj onde. p 1 x=-°t X i. p .L.. i. j J= .1. 2.1. 2.. -. X. i. )Cx .. .. X. 1. , J. UJ. X.. 1.. X.. i ,. .. - ; )2 i ,. 1. , J. ]. --,. p. e. X. 1. ,. =. °t X . . p J.L. =i 1.'J. MEDIDAS DE SIMILARIDADE E DISSIMILARIDADE PARA. DADOS QUALITATIVOS. Ainda,. de acordo com BUSSAB et. al.. i i. (1990).. como é frequente o uso de critérios qualitativos na procura de. elementos. semelhantes, que. coeficientes. t.em-se. definam. o. a. grau. necessidade de. de. obter-. similaridade. ou. dissimilaridade ent.re objet.os. segundo variáveis desse t.ipo. Por simplicidade. iniciaremos. pelo caso ande. as variáveis envolvidas são do tipo binário. propostas. de. coe:ficientes. Neste caso. as. proximidade. de. são. mui t.as.. Prát.icament.e. qualquer medida de associação para as chamadas tabelas. de. cont.ingência. pode. ser. usadas. corno. medida. de. pr-oxi midade. Consideremos. então. a. seguinte. t.abela. de.

(24) 13. contingência 2 x 2. com dois indivíduos. i e i', onde lemos variáveis apenas do tipo binário:. i. indivíduo. o. 1. individuo i •. 1. ª· .. b "t... • i. e.. d i.. • l.. i • 1.. o. 'lotal. .. "t. • l.. bi. , i.. .. .. +d i.. , i.. l. ª· .. 1. • 1.. + b.. .. e i. i.. + d.. .. p = a i.. , i.. 1. • 1.. 1. • l.. + bi. . i. + ei. , i+. di • i.. onde.. ª· .. l.'"t.. número. de. variáveis. com. indivíduos Cconcordanles).. valo,. 1.. para. os. dois. b 'i. i.. número de. ci.•i.. número de variáveis com valor O para o indivíduo !...'. d.. 1.'1.. número. va,iáveis. com. valor. 1.. para. o. indi-. víduo i' e Q para o indivíduo!... (discordantes).. e� para o indivíduo!... (discordantes). de variáveis. com o. indivíduos Cconcordanles).. valor. Q. para os dois. 2.1.2.1. DISTÂNCIA EUCLIDEANA MÉDIA. Nesta siluacão particular, pode se calcular a distância Euclideana média enlre os indivíduos !... e. .. !.... .. •. como.

(25) 14.. sendo:. d. i.'i. •. p. [. I. 1 p. (. X.. X.. ª· . + \. , \.. i.. ] [ :l/2. . +. \. , \.. e i , i.. Desse modo,. + d.1.. , i. .. , \.. p. r·. .. \. , l.. b_. b i. , i. + e \._. =. \. ,. ,;;--d=i. b , i. + e .. [. )2. ]. i/2. vemos que essa medi da indica. a. proporção de atributos não coincidentes nos dois indivíduos. Quanto. maior. indivíduos,. esse sendo. número, portanto. maior uma. a. diferença. medida. entre. os. de dissimilar-idade.. �ode-se verificar que a sua amplitude de variação é entre Q e l._.. 2.1.2.2. COEFICIENTE DE CONCORDÂNCIA SIMPLESº Seja. + d.. s_. = l.'1.. então. os. valores. .. \. , 1.. a.. . + b_. l. , l.. alt.os. . + e.. \. , 1.. de. �. . + d_. l. , 1.. .. l. , l.. cor-respondem. a. maior. similar-idade entre os objetos. Este coeficiente também varia ent.re Q e. l._..

(26) 15.. 2.1.2.3. COEFICIENTE DE CONCORDÂNCIAS POSITIVAS. vezes. Às. deseja-se. medir. a. similaridade. baseando-se apenas na presença da característica. ausência.. e não na. Isso nos leva a:. ª· .. l. , \.. ou. um. outro. mais. usado.. conhecido. como. COEFICIENTE. DE. JACCARD:. ª·l. , t. s l.'t .. =. a i , i + b i , i + e_\. , \... que leva em conta apenas a presença da característica.. uma. vez que CO.O) seria coincidencia. mas na ausência. ROMESBURG t·ornecem uma tabela de. (1984). e. BUSSAB. et. atii. (1990),. outras medidas que podem ser usadas. par a medir similaridade ou dissi mi 1 ar idade ent.r e variáveis binárias. Quando a variável. quali t.at.i va possui. mais de. dois níveis, o artificio usual é transformação em variáveis binárias a t,r a vés da cri ação de variáveis. "dummy" e aplicar. os coe�icientes vistos anteriormente. Segundo BUSSAB et alii (1990), podemos supor o vetor de critérios qualitativos.

(27) 16.. Y-=. e Y1. .,.. "'. yr ). i-ésimo component.e assume r.. onde o. níveis. codificados de. \,. modo que: com j = 1 z, 2 z, Suponha também que. \,. }: ri= p.. irá dar origem a ri variáveis binárias se. r ... "' º º". y_. \,. Cada componente. x (i) k. tal que:. = k. em caso cont.rário.. Assim.. o vetor. t.ransformado no vetor. X. y-. de dimensão 1. de dimensão 1. x p.. x r. será. formado por. componentes binárias. Esquematicamente. tem-se:. y-. X'. = ( O J>. li. •. = ( y 1- J> y 2 ,,. Sem perda indicado por. Q. O;. • ,. de. ; O .,. • • • .. 1 ,.. generalidade.. coordenadas binárias. o vet.or. x .• isto é: 1.. o ).. x•. será.

(28) . .L. . . . ,.. x• = (. X. p. ..,.. 1 .. ). e tem-se a situação anterior.. MANZATO (1993) :fornece uma outra maneira de se oblidos. dados. analisar. �. em. categorias. de. populações. multinomiais, baseado em proporções. Para o caso de variáveis qualitativas do tipo usa-se. ordinal,. a. mesma. estratégia. vista. anteriormente,. porém deve-se levar em conta a ordem. bastante. É. experimentação. na. comum. a. necessidadede di:ferentes tipos de critérios na de:finição da proximidade entre objetos. podem. variáveis primeiro. as. Sem. per da. reagrupadas. ser. variáveis. de. modo. de. qualitativas. generalidade, que. as. apareçam depois. nominais,. as. variáveis qualitativas ordinais e :finalmente as variáveis quantitativas.. Y'. =. Esquemáticamente, tem-se:. C y:t ,. • .• ,,. SPATH. C1980). =e e. YT'I -. y ) •. q. ROMESBURG. f"ornecem. C1984). detalhes sobre como proceder a uma análise para este tipo de situação. Alguns pontos que podemos ressaltar. são: a). b). const.r 6em-se coe:ficientes de proximidade, em. seguida,. ponderado, dado por. constróem-se. um. único. e. n. ,,. e. o. e. coe:ficient.e.

(29) 18.. e( i ,. i • .) = w. 1. e ( i,. i • ) + w e ( i,. i • ) + w e e i ,. i • ) n 2 o s q. w.'s são escolhidos convenientemente.. onde os. A construção. t. deste coeficiente exige alguns cuidados especiais como: i>. os. coeficientes. de. semelhança. do. mesmo. sentidc. (similaridade ou dissimilaridade); intervalos. variação. de. coef'icientes. dos. aproximadamente iguais; iii> conjunto de pesos adequados e just.if'icáveis. No caso Ciii). o que tem sido usado é ponderar pelo. número. variável. de. for. variáveis. mais. envolvidas.. import.ant.e,. a. Mas. se. ponderação. um. pode. t.ipo. de. melhorar­. mui t.o os resultados. Utilizando-se abordadas. acima.. agrupamento implementados SPSS. et.c.. tem em. vários sido pacotes. as. medidas. algorí t.mos. propostos. e. de. para muit.os. computacionais.. como. semelhança análise. de. já. estão. SAS,. BMDP,.

(30) 1 S.. 2º 2.. ALGORÍ TMOS PARA ANÁlLISE DE AGRUPAMENTO. Vejamos a seguir alguns dos mét.odos de análise. de agrupament.o.. 2º 2.1.. MÉTODOS HIERÁRQUICOS.. 2. 2.1.1.. MÉTODO DA MÍNIMA VARIÂNCIA DE W.ARD.. Est.e mét.odo, SAS I NSTI TUTE C 1 987) •. propost.o por- War-d. e ci t.ado por. é um mét.odo hi er ár quico e segue uma. série de passos começando com com apenas um.. 1. n. agrupament.os. contendo t.odos os objet.os.. Em. e. t.ermi nando. cada passo, o. mét.odo une quaisquer dois agrupament.os que result.a no menor cresci ment,o do valor. de um. índice. E,. chamado àe. índice dê.. soma de quadrados, ou da variância.. Ist.o significa que. para. cada. os. passo,. verifica-se. t.odos. possíveis. pares. agrupament.os, calcula-se o valor de E e seleciona-se. de. aquele. par com menor valor de E. Para. cada. t.ent.at.iva. de. agrupamento.. E. é. calculado como segue: 1) Calcula-se a média de cada agrupamento; 2). Calcula-se a distância. ent.re cada objeto de um. dado agrupament.o e a média deste agrupament.o;. Hi er ar qui cal. object.ive function.. Assoei ati on_.. grouping. to. opt.imize. an. Journal of the American Statistical,. Alexandria, 58:. 236-44.. 1963..

(31) 2C.. 3). Calcula-se. a. soma. de. quadrados. das. distâncias. obtendo a soma de quadrados "dent.ro" de cada agrupament...o; 4) Calcula-se o valor de E adicionando-se as somas de quadrados de cada agrupamento.. Este. mét...odo. é. mais. simples. quando. apl i e a.do. diretamente à matriz de dados quantitativos. il ust.rar. Para. o. método.. consideremos. o. seguinte exemplo: Exemplo.. Suponha. que. lemos. 5. parcelas. de. terra. e. dois. atributos que descrevem importantes propriedades: O capacidade de retenção da água C "wat.er-hol di ng"), expressa em porcentagem; ii) porcentagem do peso de matéria orgânica. O. objetivo. é. as. encontrar. parcelas. mais. similares. de acordo com esses at.ribut.os. Os dados são: at.ribut.os parcelas 1. 2. 3 4. 5. 1. a. 10. 5. 20. 20. 30. 15. 30. 5. 10. 10. Apl 1 e ando o método de War d par a encontrar mos os agrupamentos,. comecemos com o passo zero,. onde t.emos 5.

(32) 21.. agrupament.os e os valores médios para cada agrupamento serão os próprios valores: E. =. C10-10). 2. +. 2 (5-5). +. (20-20). grupo 1. + (30-30). 2. 2. +. (30-30). 2. +. grupo2. 2 + (10-10) +. (30-30)2. grupo 3. + (5-5). 2. +. (15-15)2 +. grupo 4.. + (10-10). 2. = O. grupo 5. Passo 1. Precisamos calcular E para todas as partições possíveis:. usando-se dais at.r i but.os.. As par t.i ç:ões possíveis. est.ão no Quadro 1.. Quadro 1. -. Partições possíveis considerando-ser agrupamentos para duas parcelas.. Passo 1. Possíveis partições (12) (13) (14). (15). (23) (24) (25) (34) (35) (45). 3. 2 2 2 1 1 1 1 1 1. 3 3 2. 5 5 5 4 5 5 4 5. 2. 3. 4 4 3 3. 4. 2. 4. E. 162. 5 212.5 250.0 25.0 100. O 62.5 162. 5 12. 5 312.5 325.0. *.

(33) 22. Para o primeiro caso, onde 'Lemos as for1naçôes C12) •. 3.. 4 e 5,. calculamos a média dos agrupament.o (12).. °. Para o 1 . at.ribut.o, esse valor é (10+20)/2=15.0 e para o 2� at.ributo é (5+20)/2=12.5. Assim: E = (10-15). 2. +. (5-12.5). 2. (20-15). +. grupo. + (30-30) 2. +. (10-10). 2. +. (5-5) 2. +. +. (20-12. 5). 2. +. <1.2>. (30-30). grupo 3. +. 2. 2. + (15-15) 2. +. grupo 4. (10-10). 2. = 162. 6. grupo 5. Continuando esse processo, encont.ramos o valor de. E. para. t.odas. as. possíveis. part.ições,. cujos. valores. constam no Quadro 1. Como o menor valor de E é 12. 5, result.ado. os. agrupament.os. 1.. 2,. e. 4,. (34). e. 5,. t.emos como. unindo-se. os. grupos 3 e 4.. Passo 2. Unindo-se possíveis r est.ant.es.. duas. uniões,. 3. verificamos. considerando.. os. as. out.ras. agrupament.os. Nest.e caso os resul 'Lados est.ão no Quadro 2..

(34) 23.. Quadro 2 - Possíveis part.icões, Passo. considerando o grupo C34).. Passiveis part.ições (34) (34) (34). 2. (12) (15) (25) 2 1. (134). (234) (345). Considerando. o. 175. O 37.5 175.0 316.7 116.7 433.3. 5 2 1 5 5 2. 1. primeiro. E. caso,. onde. t.emos. as. possibilidades C34), C12) e 5, t.emos:. média de C34). ,{. média de (12). ,{. (30+30)/2. =. 30. para o at.ribut.o 1. (10+15)/2. =. 12.5. para o at.ribut.o 2. (10+20)/2. =. 15. par-a o at.r i but.o 1. 12.5. para o at.r ibut.o 2. =. (5+20)/2. Ent.ão,. ______________"_______________. E = ..,(30-30) 2. (10-15). 2. + (10-12.5) grupo. + (5-12.5). 2. • (5-5). 2. + (10-10). grupo. 5. 2. + (30-30). (20-15). Cí.2}. =. 2. + (15-12.5)�. +. 2. +. (34>. +. grupo. 2. 175.0. 2. +. (20-12.5). *.

(35) 24.. Análogamente. calcula-se. E. para. as. outras. possíveis partições obtendo-se E= 37.5 como o menor valor. Temos então os agrupamentos (34). (15) e 2 para esse passo.. Passo 3. Neste passo as possíveis partições constam no Quadro 3.. Quadro 3 - Possíveis partições considrando-se os grupos (34) e C15). Passo 3. Possíveis partições (234) (125) (1345). (15) (34) 2. Para o primeiro caso,. E 141. 7 245.9 568.8. onde temos as partições. C234) e (15), temos:. média de (234). média de (16): {. Assim:. 20+30+30)/3=26.7 {( (20+10+15)/3 = 15 e 1 o+5) a. =. 7. 5. C5+o:>a = 7. s. para o atribulo 1 para o atributo 2. para o atributo 1 para o atributo 2. *.

(36) grupo. (10-7.5). 2. +. (5-7.5). < 234>. 2. e5-7. 5) 2. +. grupo. ( 1.5}. unimos. 2. +. e 1 o-7. 5) 2. +. = 141. 7 Logo.. com. (34),. :fornecendo. os. agrupament.os (234) e C16).. Passo 4. Nest,e (12345).. passo. só. é passível. uma. uni ão. que. é. Assim t,emos:. (10+20+30+30+5)/5=19 p/ o at.ribut,o 1 média de (12346): { (6+20+10+15+10)/5=12 p/ o atributo 2 e o valor de E é: E = +. e 1 0-12). 2. e 1 o-19) 2 + e 5-12) 2 + e 20-1 g) 2 + e 20-12) 2 + + e 30-19). 2. + e 16-12). 2. + e 5-19). 2. O r esul t-ado obtido pode ser dendrograma,. con�orme a Figura 1.. (30-19)-+. + e 1 0-12). 2. = 650. r epr esentaàc num.

(37) 26.. Soma dE Quadrados E 700. bUO 500 40(J. :;oo LOO. 100 4. 3. Figura. 1.. Árvore. 2. 1. Parce-las. .). produzida. pelo. mé'Lodo. de. Ward. aos. dados de solos.. Podemos observar que E cresce não-linearmente. No exemplo,. lemos que E cresce em progressão:. 37.5, 141.7, 550. os. agr upamenlos. significância. O.O,. 12.5,. Islo fornece uma árvore bem definida, onde sal t.,am aos. real. pois. E. olhos.. Cont.,udo isto não. é. função. uma. do. é. quadrado. uma. de. di�erenças e lende a crescer não-linearmenle quando e nómerc. de agrupamentos lorna-se menor.Por isso, pode-se construir a árvore considerando a raiz q�adrada de E, sugestão que não é. muit.o pralicada..

(38) Andenber- g. 1. ci 'Lado. por. ROMESBURG. C 1 984). faz. várias considerações sobre o método de Ward. O ind1ce E é um coe:ficiente. de. di ssi mi 1 ar idade. sensi vel. a. translações. aditiva e proporcionais aos dados. O segundo pont.o. é que. o. método. de. War- d. não. garante uma partição ótima dos objetos em agrupamentos, isto é,. podem. existir. outras. partições. eventualmente. melhores. que a obtida por este método.. í. ANDENBERG, M. R.. Cl ust.er. New York, Academic Press.. analysys 1973.. for. aplicat.ions..

(39) 23. 2. 2. 1 • 2... MÉTODO. DA. LIGAÇÃO. SIMPLES. OU. DO. VIZINHO MAIS PRÓXIMO.. Nest.e método. t.arde. mais. reutilizado. proposto por. por. Mc:Qui tty. Flor·ek. 9. et. e Sneat.h. conf·or me citado por St:S I NSTI TUTE C 1987) ,. l!;·. aL L i. 2. Sokal. e 4. ,. a di slânci a ent_r E­. dois agrupamentos é a dist.áncia minima ent,re eles. MARDIA et aLii (1979) fornece uma descrição do algoritmo. para. agrupar. indivíduos. vizinhos,. do. seguinte. modo: a) Order1am-se os. nCn+1) pont.os da matriz de. distâncias em ordem crescente, uma. vez. que.. tendo-se. matriz de dados n x p, a matriz de distâncias terá. um2.. dimensão. n x n. e simétrica; 2. FLOREK. K. ; LUKASZEWICZ, J.; PERKAL, J. ; ZUBR2YCKI, S. la liarison et. la division des point d'un Colloquium Mathematical.. 2. FLOREK. K.. LUKASZEWI CZ, J .. Taksonomia Wroclawska.. 17: 9. 4. Warsaw. 2:. Sur. enseroble fini.. 282-5. 1951a.. PERKAL. J. ;. ZUBR2YCKI , S.. Przeglad An.tropologiczny� Warsaw,. 193-211, 1951b.. McQUITTY, L.L. Elementary linkage analisys for isolating ortogonal and oblique types and typal relevance.. Educational and Psychological Measur-ement p 17: 207-29.1937. SNEATH, P.H.A. e SOKAL, R.R. Numerical taxonomy; the principles and practice of nwner-ical classif"ication. San Francisco.. Freeman, 1973.. 573p..

(40) e .. Seja. b). e2 .. 1. .. . ,e m. o. agr·upamenlc. i n1 c.i al ,,. cont.endo um pont..o. ist..o é x_ e C_ � l... l,. e) Sem qualquer perda de generalidade, seja d t..al que x. e X. agrupados e. t.emos. s. r. 1. s. =. 1. min {r·,s). são vizinhos.. i. Ent.ão,. dois. m-1. agrupament.os. onde C. s. a. novo agrupament.o; d) Seja d r. 1. e s. r-. er. r +. i. 2. são iguais a r. 1. er. agrupament.os são Se. 2. =. r-. es. + 1. e). e. 1. es O. 2. s. 2. s. ;r. 1. 1.. +. e. pr6Yima menor distância. e s. 2. es. +. r. 1. r-epect.i vam�nt.e,. 2. • er os. e. + 2. n-2. sác. pontos é. Se. os. um. nem novos. mais os rest.ant.es... 2. novos. agrupamentos. são. • mais os restantes.. processo. termina. quando. t.oàos. os. objet.os. estiverem agrupados em um único grupo. Pode-se. observar. que. est.e. algoritmo. relação de recorrência: d. k<i.ji. = m.in { d k i.. d.. Jk. ).. usa. a.

(41) Exemplo.. Considerando ainda o exemplo inicial.. matriz de distâncias,. temos que a. usando a distância Euclideana é dada. por:. D. 1. o. 1 2 3. 1. �-. 2. 4. -::!>. 20.60 14.10. 18. 00. o. o. 4 5. 5. 22. 40 11.20 5.00. 7. 07 18. 00 25.00 25. 50. o. o. Passo 1. Como àC3,4) = 5.00 é a menor distância. unimos 3 e 4.. Passo 2. Calculemos a nova matriz de distâncias, usando a relação de recorrência:. D = 2. 1 2: (34) 5. 1. [. 2 18.00. o. o. (34) 20.60 11.20. o. 5 7.07 18.00 25. 00. o. ]. onde: d. d. d. i(:94) 2(94} !5(34}. = min -{d. =. min. {d. = min -Cd. :f.9 2S 35. d. e d. 14 24 415. ). =. ). =. n {14.10,. 11.20. ). = 11. 20. ). = min {25.0C,. 25. 50. ). = 25. 00.. m.in <:20. 60, 22.40 l'l"'..1.. ). =. 20.60.

(42) 31. Passo 3 Como dC 1 • 5) 1. = 7. 07 é a menor distância,. urli mos.. e 5.. Passo 4. Calculemos a nova mat.riz de distâncias:. D. 9. =. 2 18. 00. (15). [. (15) 2 (34). o. o. (34) ê:0.60 11.20 ]. onde: d. 2(15). d. = mi n { d. U5H34). =. d. 1.2. mi n{d. 25. ) = mi n { 18. 00, 1 8. 00 ) d. 1(34}. 5( 34}. ). =. mi n{ê:0. 60,. = 18. 00 ê:5. 00). = 20. 60. Passo 5 Como. dC 2. C 34)). =. 11 . 20. é. a. menor. di st.ânci a. uni mos 2 a (34).. Passo 6. Calculando a nova matriz de distâncias.. D. 4. (15) (234). =. [. (15) o. (234) 18. 00. o. ]. onde: d. U.5}(234 >. = mi n{d. 2(1.5). à. <15><3� >. ) =mi n<:18. 00, 20. 60). =18. 00. temos;.

(43) 32.. Passo 7. Unimos (15) com (234) cuja disl&ncia � 10.00. Temos enlão o dendrograma,. que eslá na F1gu,a. 2.. Distância Euclideana. 2a,o • 24,0 �. l. 20,ü ib,O. 12,0. -�. 8,0 4,0. º· º. Figura. 2.. -�. 4. Árvore. 1. 2. produzida. Parcelas. 5. pelo. mét.odo. do. vizinho. mais. pr 6x..i mo aos dados de sol os.. Fl SHER. cit.am. propriedades. simples,. mas. em. ,. VON. NESS. t,eór i cas. est.udos. de. C 1971). para. o. simulação,. e. HARTI GAN. método não. lem. da. C 197 4). ligação. dado. bons.

(44) 33.. resultados.. Por não se considerar nenhuma restrição na forma. dos agrupamentos. a ligação simples sacri�ica sua execução, deleclando alongamentos ou agrupamentos irregulares..

(45) 34. 2. 2� S .. 3.. MltTOOO. DA. U GA!';.iÃ!>. CO�LET A. OU. 00. O rnét.odo da li gac/io compl et.A Jl desenvolvi do por. Sor-ensen 11 e c.1 t..l!ldo por SAS INSTITIJI'E (1987), é semelhante � ligac�o. simples.. pares de elementos em cada �grupament.o. MARDIA al gor ! t.mo. par a. est.e. ligação simples . .Aqui.. para definir. et. at ii. mét.odo.. C197Q). t.ambém. que é anál ogo. usa-se. �. relacão. a dist.ância ent.re o grupo k. de. i'orn&ee. ao. um. llflét.odo da. recorrência:. e o grupo Cij). �ormado pela �usão dos grupos� e i-. Exemplo. Considerando. ainda o exemplo anterior.t.emos que. a. mat.riz de distâncias é dada por: 1. D. 11. SORENSEN.. 2 3. o. 2. 18.00. o. 3. 20.!50 14.10. o. 4. 22.40. 11.20. 5.00. o. 7.07. 18.00. 25.00. as. so o. T.. ampl i t.ude i n anal i sys of veget.ai.i on on dani sh commons . . Biologic.&l Skrif't-e,r i> 5: 1-34. 1948..

(46) 35.. Aplicando o mét.odo da ligação complet.a. �emos:. Passo 1.. Sendo dC 3, 4). = 5. 00 a menor di st.ã.nci a,. uni mos. 3 e 4.. Passo 2.. Calculando a nova matriz de distâncias, t.emos: 2 18.00. 1. [. 2. D=. (34). onde:. d d d. t(94-}. 2(34) 5(34}. = máx = máx. -{d. 1.3. {d. = máx {à. zs' !59.. o. d. 1.4. d. 24. d. !54. o. =. (34) 22.40 14.10. 7.07 18.00 25.50. o. ]. o. máx {20.60. 22.40. )-. = 22.40. }. = rnáx {14.10, 11.20. )-. = 14.10. }. = máx {25.00, 25.50. ). = 25.50.. ). Passo 3.. Sendo dC1,6) = 7.07 a menor distância, 1. unimos. e 5.. Passo 4.. Calculando a nova mat.riz de dist.âncias, �emos:.

(47) D. (15) 2 (34). =. 3. onde: d. d. 2{ :15). = máx {d. <i5H:34-). =. :12. , d. máx {d. Passo 5.. 25. unimos 2 a (34). Passo 6.. •d. o. 18. 00). =. =máx -C22. 40,. =. 14.10. é. 18.00. onde:. =. máx{d. Passo 7. agrupamenlo,. 2U.5>. •. d. Unimos. =. (15) (234-). (:15H34}. [. (15). }=máx{18. 00,. (16). a. (234). 25. 60.. 26.60). =. menor. dist.ância,. a. Calculando a nova matriz de distâncias.. 4-. (i5H234>. ). dC2.C34)). D. d. 5<94>. C34). 25 . 5 14.10 0 0 ]. 18. 00. o. ) = máx{18. 00,. i(S4->. Como. [. (15). t.emos:. (234). 25. 50} =25. 50.. t·armando. cuja dist.ância é dCC16).C234)). um. = 25.60.. O dendrograma est.á na Figura 3.. único.

(48) Distância Eucliàeana. 28,0. ,. 24, O.,. 20,0 16,0 12,0. ·a, o. --. --. 4,0. 0,0--......__.__...__ 2 1. _.,_;,__.!..____4,,-. F'i gura. 3.. Árvore. produzida. 5. Parceia�. pele. mét..odo. do. vizinho. mais distante aos dados de solos.dos de solos.. Est.e método produz aproximadamente. iguais,. podendo. presença de dados. discrepantes.. agrupamentos ser. mal. de di âmelr os. int�rpretado. na.

(49) 38. 2º 2. 1 • 4.. MÉTOOO. DA. MÉTODO. LI GACÃO. DO. DE. DENSIDADES VIZINHO. k-ÉSIMO. MAIS. PRÓXIMO. Esse (1983). é. ut,ilizado. densidade,. desenvolvido. método, para. formação. de à. aplicado. podendo. por. WONG. agrupament..os. mat.riz. de. &. LANE. de. al t.,a. dados. à. ou. mat.riz de dissimilaridades. Considerando. as. observações. x •...• x 1. como. n. uma amost.ra aleat.ória com valores em � P . p � 1 com densidade f,. a propost..a dest.e mét.odo é descobrir agrupament.os de alta. densidade, est.ágios: mais. a. part.i r. da. densidade. no primeiro estágio,. próXimo. é. usado. para. f",. consistindo. de. doí s. o mét.odo do k-ésimo vizinho um. obter. estimador. para. a. densidade subjacente f, onde a densidade estimada no ponto x é definida como. t· Cx) =. Ci). n V Cx) k. r,. onde V Cx) é o volume da menor esfera cent..rada em x cont.,endo k. k. observações amostrais. Denyone. (1983), 1.. mostraram. DENYONE, L.P. or. nearesl. e. que. Wagner. r. Cx). e WAGNER, T.J. neighbours. :l. ci t.ado. definido. em. WONG. como. acima. LANE. &. é. um. Toe st.rong uniform consistency. density. Mathematical and Statisticalº. 5:. estimates.. 536-40.. 1977.. Annals of.

(50) 39. estimador uniformemente consistente para f. Os. agrupamentos. de. alt.a-densidade. definidos. sobre est.a estimativa uniformement.e consist.ente da densidade .... r,. ser. pode. .. agrupamentos. usada. de. como. estimador-. um. alta-densidade. definida. amostral sobre. f.. dos Est.es. agrupamentos amostrais de alta-densidade são construídos no segundo estágio deste algoritmo. No segundo est.ágio, d( X.• X_), l.. J. 1. S. i• j. S. n,. para. a matriz D de dist.âncias. ll. observações. é. calculada. considerando as seguint.es definições:. Def. 1 .. d. *-lx .• x_) l.. J. Duas observações x.. \.. <. ou. Euclideana e dé x?. e x. são J. onde. *. di tas vizinhas se. d C .•. ). é. a. dist.áncia. é a di st,ância do k -ésimo vizinho mais. próximo ao ponto x .. l.. Def. 2. dada por:. A dist.ância dC .•. ) entre as observações x. i.. e x é j.

(51) 40.. dCx .• x_) t. J. =. r� [ +. 1. +. f" ex.) N. 1.. em. 00. e.. c.. ]. 1. f" Cx .) N J. se x. e x . são t. J. vizinhos. Usando (1) da página anterior, "lemos que:. dCx .• x_) 1.. J. se x. e x . são. = { êk. 1.. em. +oo. c.. Por "lanto. somen"le. para. pares. vizinhança em !R P simples. à. essa. de. J. vizinhos. c. distâncias. finitas. observações. que. são es"lão. definidas na. mesma. Em seguida aplica-se o método da ligação matriz. de. distâncias. para. se. ob"ler. os. agrupamentos de al"la densidade. Desde que os são. invariantes. densidade. dk C x ) • i.. as. por-. transformação. dist.ãncias. i =1 • . . . • n,. agrupamentos de. são. do. alta. monót.ona. da. usadas. Para i =l •... • n.. função. k-ésimo vizinho mais ao. invés. dos. seguinte algoritmo:. Passo 1.. densi da.de. calcula-se d, Cx_). K. \.. próximo. V Cxí.) •s k. no. a distância. do k -ésimo vizinho mais próximo de x .. t. Passo 2.. de. Calcule a matriz de distâncias D como segue:.

(52) 41. 1. dCx .• x.) t.. J. =. L:. [ d Cx.) +. e.. em. ] se d*cx .• x.):!f d Cx ). t.. k. t.. ou d. e.. k. J. (xi.. i. X/5 dkCx/. onde d* é a dist..ância Euclideana.. Passo 3.. Aplicar o método da ligação simples à matriz D. para obter os agrupamentos. Est..e conjuntos. de. procedimento. dados,. mas. é. não é aplicável. melhor. aceit..o. para. a. grandes pequenas. amostras.. Exemplo. rnat..riz. Considerando ainda os dados de solos. usando-se. dist..âncias,. de. a. distância. temos que a Euclideana. é. dada por: 1. D. 2 3. o. 2 18.00. o. Ut..iliza.ndo análise. para. essa. 3. Z0.50 14.10. o. o. mart..iz. sistema. de. 4. ZZ.40 11.20 5.00. o. SAS.. dist..âncias,. 7.07 18.00 25.00 25.50. o. executou-se obt..endo-se. a. os. resultados, que constam das Tabelas 1 e 2 considerando 2 e 3 grupos..

(53) 42.. Tabela 1. Resultado obtido usando o pr-ogr-ama SAS, para o método de ligação de densidades. aplicado aos dados solos. de considerando-se 2 agrupamentos. �9:S4 Thuraoa,, kPt!Hlb&r 1e. 1tt1. .AS. 116.uabo.o4. IJ. fritquency Clu�t•ra .Joined. ..:a. Clustera. 111arcr1ae p4rcmla3. e. CL.4. o4 Na... Fu-.to:-: Denmit,. Llt9-r. lilreAter. E. 0.0400 0.0400 O 0331. 0.0400 0.()400 0.oeeJ. 0.0400. Clustwr. 11111rcel11S .,11rc1tle4 1Dcrc111A1. e s. e aodel clustars. Tabela 2. -. M.tlxlau� Dene!ty• lft Each Clu1,t•r. h&Vff. 0.0400. 0.0$00. b11K>n for-e!. Resultado obtido usando o pr-ogr-ama SAS, par-a o método de ligação de densidades, aplicado aos considerando-se dados solos, de 3 agrupamentos.. 1't:54 Thurllda,.. Sept.-,er 1E, 1fl1. 8AS. 13. Dens1tr Llftka9e Cluster lílncl,slo t( • 1 �r. of. •:a. Clu5tare. e 1. Ch1st1trs. .lol1Htd. 111orc:•lee. "ª'"c•la'S. C&..4.. ••rc:ela4. CL2. "AF"C:91&3. CL.3. parc:e1al. Fr"l.l4'ncv of...., Clu•t•r. I!. :a 4 s. Fuston Den111it,. 0.0328. o.oebS o� O 0e37. One aodal clu11t•r h1111; bfH>rl for�. �-.. ª". flledau• Dltnsth Eec:h Ch.11;,ter. 0.C>e68. o.oe.s. O.OU,7 0.0213. Sraat.er 0.04e4. o.�4. O 04a4 0.0424.

(54) 43. Os dendrogramas produzidos foram reproduzi dos nas f"igur as. 4 e 5.. l).)neitJ Llnh@�lt Clumt�r M&lrais. o.�. <r. p. � til e E L. ". Cl�ter Fumler> �mlt,. --------- -------------•. O . 0,E4. O. ce8. O. C)eó. u. IJ>llll""C�lal:'. 11'arc1tla'5. xxuuuuxxnxx ............................. .. X l. l[ .............. .............................. .. Dendrograma obtido pelo método da ligação de densidades produzido pela análise de dados solos, para 2 grupos.. Figura 4.. IA.5. l'I. e. E. 'L li,. •. ----·--•------0.034. 0.03ê: parc•l&1. parc11laS. i::qarctt 1 ia4. Figura. 5.. 'º. 1�.54 Thuradar, hPt�er !E, l'K'!. 0.03ó. --•------•. 0.038. O.O.li. l ...................................................... . � 1 l(. i;,a,r Clf 1 &E. p&rcal&:3. O . 034. lU. XllllllllllllXIXXIIXIIIIXXXXllllllllllXXIIIIII XllllllllllXXlXIIIXllllllllllllXlllllllXIIIIXI lllllXXIIIXIIXlllXXIXXllllllllXlllllllllllllll llXIIXIIXllllllXIXXXlllllllllllllllllllllllllX XllllXllllllllXI llllllllllllllll. l>IJl""Cltl&:3. ,. .,._. O . 032. XX ........····························· ........ ll'&rcmlai. p11rcele.ll. •. O 03. XXIXll!XlllXIXXXIXXIXIXXXXilllllllXXXllllllXXIXXXXXXXXXI IXXIXlllXIXXXXlllllXIIXllXllllXllXlllXXXXXXXXXlllllllXIX l lXlXllXXXXXXIXIIXEIIXXXIIIXXXlllllXIXIXXXXIXXXXXXXXIIXX lllllllXIXXXXXXXXXIXIXIIXXXllXllllXXlllllXXXlXXlllXXXIIX XXIXIXllllXIIXIXllllllllllllllllXXXXllllXXIXIXXXXIXXXXXJ XIXXIXXXIXXXXXlllllXXXllXXIIXXXXXXXXXIXXXXIXXXXIXXIXXXXX lXXlllXXXXXXIXXIlllXXIXXXIXlllXXlXXXXIXIXXXllXXEIXlllXXX XXXKXXXlXXllIXXIXXXXXXXXXXIXXXXXXXIXXXXXXXXXXXXKllXXXIXX. Dendrograma obtido pelo mélodo da ligação de densidades produzido pela análise de dados solos. para 3 grupos..

(55) 44.. 2.2.2) MÉTODOS DE PARTIÇÃO.. As t,écnicas de par t,ição. separar os dados em grupos disjuntos,. possibilidade de modo. a. se. caracterizam-se pela. obter maior. homogeneidade. possi vel. dent,ro. de dos. grupos e maior heterogeneidade entre grupos. Assim, uma partição de tamanho m de L objetos, é uma coleção de conjunt,os não-vazios que: i.) C uC 1. 2. u ... u. .. .... Ll. �. de. modo. =. que. em. 0. cada. em =. para. e.. {x • 1. e., J. -.... x . 2. j =1 • 2 •...• n,. X. r,. tal. ).. j � k.. tenhamos. coesão. interna. e. boa. separação entre os grupos. Assim. essas técnicas exigem a pré-f"ixação de critérios que produzam medidas sobre a qualidade da partição produzida.. O uso dos métodos de partição pressupõe também o. conhecimento. do. número. de. partições. desejadas.. problema passa a ser a procura de uma partição dos em. m. grupos,. de. modo. a. tornar. ótimo. um. Dai. n. o. objetos. critério. de. otimizacão da partição. Isso poderia ser f"eito. construindo todas as. partições possíveis, deteminar o valor da medida para cada uma e selecionar a melhor partição.. Porém,. segundo Duran e.

(56) 45.. Odell. 1. citado. por. BUSSAB. et. atii. (1990).. o. número. possibilidades é assi nt6t,i cament,e da ordem de modo. :fica. completa. inviável das. uma. solucão. partições.. Logo,. através os. da. processos. de. Desse investigação de. partição. t.endem a investigar algumas part.ições, procurando encont.rar a partição ótima ou uma alternativa que seja quase ótima. Vejamos algumas dessas: técnicas.. a. a. a. 1). MÉTODO "LEADING".. A :fim de se obter uma técnica de. partição de. um conjunt.o de dados.vamos considerar a representação de uma. n. partição de p_1. =j.. então. indivíduos por um vetor � de o. i-ésimo. se p_. agrupamento;. 1.. = o.. individuo. m. componentes.. pertence. ao. Se. j-és:imo. si gni :fica que o i -és:i mo i ndi vi duo. ainda não pertence a qualquer agrupamento. Postulemos: que os conjuntos: componen t.es da particão devam ser vazios e supor que, menos um. no vetor. �.. para cada j=1,2 •... ,m,. i e {1,2, ... ,n}, com p.= j. 1.. 1 e p. �n p_ = O ou p.� 1. 1. 1.. vamos:. existe pelo. Valores de p. tais: que 1.. não serão admi t.idos.. Esse procedimento é chamado Procedimento Heurís:t.ico, encontrado em SPATH (1980) com esse procediment.o. imediatamente s.. DURAN, B.S. Berlin,. é. Podemos: observar que,. de acordo. cada objeto é considerado uma vez e. alocado a. um agrupamento.. Isso. pode. Cluster Analysis: a survey. Springer-Verlog. 1974. e ODELL, P.L.. ser.

(57) 46.. aplicando-se. feito. este. método. diretamente. aos. dados. originais ou a uma matriz de distâncias. A descrição do algoritmo é a seguinte: 1. Defina. Defina um. também. os números minimo e máximo de grupos. valor. DELTA,. de. o. é. que. valor. que. incrementa uma constante pré-fixada a fim de encontrarmos a partição. 2. comparamos. Seja um com. valor. a constante. da matriz de distâncias o qual pré-fixada.. Se. f'or. menor.. as. observações são alocadas num primeiro grupo. Caso contrário, as. observacões não serão alocadas a outro. grupo e essa. constante será incrementada pelo valor de DELTA.Isso é feito at.é que o número máximo de grupos seja alc�nçado. 3. É definido internamente um vetor de zeros. onde a cada passo do algoritmo, esses zeros vão sendo substituídos pelo número de grupos requerido.. Em cada alocação feita.. testa-se se ainda existe zeros no vetor. igual ao do número de observações. nulas,. cuja dimensão é. Se existirem posições. incrementa-se a constante pré :fixada pelo valor de. DELTA. Em caso contrário, o numero de grupos é incrementado, iniciando-se novamente o processo. 4.. Quando o número máximo de grupos é atingido.. o. processo ter-mina. HARTIGAN. (1974). consider-a. esse. procedimento. como bastante rápido de se encontrar a partição considerada ótima..

(58) 47.. 2.2.2.2) MÉTODO DAS k-MÉDIAS. SPATHC1980) descreve que o algoritmo usado no método das k-médias é muito empregado em situações práticas.. e.. Seja elementos m - 2. p e consi der emas. um. agrupamento. Seja Ck ?! �. ep. .Íl. isto é.. não pertencem a C. um. número. de. um subconjunto pr6pr i o de C. e j -e k = e J. =. com. C. C. j. a dif"erença Cnão vazia). k. o conjunto de el ementas de C. que J. k. Seja. X. q. 1. =. Cq. m. i E C. =. j. k. p). q. também conhecidos como centróides e e. a. soma. de. q. =_) li t.�q. quadrados. X. i. X. das. Cq. q. dist.ãncias. dos. subconjunto. calculado a partir da centróide.. =. j • k • p). elementos. (1). do. Desenvolvendo. C 1) • temos que: e. Cq=j. k. p). q. A. quadrados. das. di st.ânci as e P podem ser expresses como função de x j. x k. e_ J. e e. k. centróide. x. p. e. a. soma. de. • e que podem ser facilmente demonstradas:.

(59) 48.. m. x . X. p. J. =. J. m.. m. k. e. e. p. = e .. 11. J. X.. J. Par a o caso especial em que C = { k é.. k } •. i st.o. o agrupament.o t.em apenas um element.o. as f"órmulas acima.. t-ornam-se: m X. .X. J. -. j. -. m.. x k. e e. p. =. e.. 1 fx -xk 1 1 j. m. J. 2. .. Assim. o algorít.mo das k-médias, iniciando com uma. dada. part.ição,. cada. pont.o. X. 1.. para. exper- i ment.al ment-e do agr upament.o agrupament.os C. j. ,j= •... ,n e j � r.. é. t.ransf"er ido. t.odos. os. out.ros. Se para pelo menos um j�r. t..ivermos que m rn ent..ão. X.. 1. li. X. r. X.. 1.. é alocado ao grupo. 1 1 2,J. 2. >. m. J. rn. + 1 J. para o qual. li. X.. J. - X.. 2 11. o lado direi t.o da.

(60) 49. expressão acima é e + e e -. mini mi zaào.. que. o. significa. que. t.orna-s:e. r. m m. 1 1. 1. X. X. r·. 12. 1. i. e +. +. V. V. m. V. + 1. 11. X V. 2 11. f). de modo que. e . é reduzi do ao mini me.. caso. o próximo executados. pont.o. através. é. dos. considerado. objet.os. Se este não Tant.os. i =1 •...• n. passos. quant.os:. o. são for-em. necessários. até não ocorrer mais mudanças.. Exemplo:. Considerando o. mesmo. exemplo. àado ant.eriorment.e.. -Lemos os dados:. atributos 1. ê. 1. 10. ê. 20. 5. êO. 30. 15. parcelas. 3. 30. 5. 5. 4. 10. 10. e queremos encontrar as parcelas: mais similares. Consideremos os agrupamentos iniciais:. e.

(61) 50. Temos ent.ão:. at.ribu-tos. parcelas. 1. 1. 2. · 10 20 30 30 5. 1. grupo 1. 5 20 10 15 10. cent.róide. 2. 10. 5. e. 7.5. = 26.0. Vemos que d=141. 7. ref'erent,e à parcela 2.. 12. 8. 2. 1. 12. 5. 5. 10. 7.5. t.ot.al. z d C. ,e). grupo 2. 20 30 30 26.7 e. 2. 2. d C. ,e). 20 10 15. =. 69.5 36.1 11.1. 15. O. 116. 7. e como o at,ribut,o C20,20). st.á com uma di st,ânci a rel at,i vamente. alta, tenl,emos realocá-lo para o grupo 1. Assim. t.,emos:. parcelas. atribut,os. 1. 3 4 5. 1. 10 20 30 30 5. cenl-róide. 'total. grupo 1. 2. 5 20 10 15 10. 1. 2:. 2. 10 20. ao. 5. 10. 11. 7. Com isso. mais all,o que o anterior.. 5. Lemos. 47. 3 138.8. 42. 3. 11.7 e. d C . • c). = 233.3. que d=246. 3.. 1. grupo 2 2. 30 30 30. e. 2. d C. ,c). 10 15. 6.3 6.3. 12.6 2. =. 12.6. que é um valor. Assim. deixamos o atributo (20,20).

(62) 61.. no grupo 2. como. ant,es. e. encerramos. agrupamentos. C. í.. ={1.5}. e. o. procediment,o com. os.

(63) 5�c... 3 .. METOOOL06IA. 3.1 Configuração e Montagem do Sis�ema A sugest.ão propost.a por SPATH C1GBO), vista na revisão da literatura. onde se propõe construir uma matriz única de distâncias. das. mat.rizes. quant.it.ativos.. reunindo nessa matriz uma. nominais. qualitat.i vos. e. dados. para. dist.ã.ncias. de. parciais. ponderação. ordinais.. f'oi. ut.ilizada para a const.rução do sistema. Para a representação da est.rut.ura lógica do sist.ema.. utilizou-se. os. Diagramas. Hierárquicos. de. Blocos. C 11St.ruct.ure Chart.") descrit.o por YOURDON et al.ii (1979). Os Diagramas Hierárquicos de Blocos contribuem para evidenciar a hierarquia do sist.ema. de forma simples, simbólica. e. muito. eficient.e. na. descrição. da. estrutura. lógica. Est.a. técnica. apresent.ado na Figura 6, mostra. a. est.rut.ura. de. àocument.ação. de. sistemas. o Diagrama Hierárquico de Blocos. lógica. do. procedimento. MULTI DIMENSIONAL C ANÁLISE CLUSTER). 11•. "GRUPAMENTO.

(64) Figura 6. [ Nº. Df.·UAI,. H OIS.. Pffl[ COII. "º ·. DADOS. os. PIIDRO!IIII 1:SCOUIA AS IOlllDAB. ons.. I Nº. H UAR,. "º · D!. lllfR[ COII. DADOS. os. Ll:lft. ESCOUIA AS IIEJ)IMS. 1 1. OI'! [ C n•. H OIS. t: N". DI VAfl, OO'R. 1 1. - Diagrama Hierárquico de Blocos para o sistema ele Analise de Agrupamentos.. llOS. s. �. r:. 000 0 0 • . ____. !lllllOS. LfosJA. ���UI� PlflllNI�. TIYTO. 01w.

(65) 54.. { © {. � /;"\. T,pc dP •nltada de dados. Tlpc de dados. dlJnensio da ��rlz de dados quan�J�ati�. { dados quantitativos. €5 © @ © (v. { 1r�trJ.2 de disl..áncia para dados quantit.2t.Jvos. { dados qu.-.U tat.J vos nomJ nal s. El. { mat.r12 de dlst..áncla par" dados qualJt.at.1vos nom1nais. 0. { matri2 de dados qualit.2t.1vos ord1na1s. � @J. � @. { inal..ri2 de disl..áncia para dados qualit.at.ivos ordinais. { 1r.at.ri2 únlca de distá�cia. { grupos formados pele, n-étod c:, de parllçlàc:,. { �. pr upos for 1r.aóos ,. �dias va.r i AveJ. s quani..1 t.at..j vas. r var J. �nclas. dos. grupos par a. { 1m;:,re,:sãc dos grupos for1r.ados pele Jnét..odc h1er.lrqu1co. Figura 7. Par âmelros de Entrada. c9). e Saí da C d) do Si st..ema..

(66) 65.. denominam-se módulos at..ividade. ou. atividades. que. r et..ângulos. Os. do. si st,ema,. conjunt..o. de. pelos. realizadas. implicando As. atividades.. Figura. na. aparecem. cada. um. numa. descrições. legendas que aparecem dent..ro dos ret..angulos.. Na. das nas. encontram-se. módulos. 6. Figura 2.. t..emos a descrição do símbolo caract..erizado por um círculo, uma :flecha. e um número,. que. representam os. parâmet..ros de. entrada e salda dos módulos. Os. módulos. são. retas denominados conexões.. conectados. por. que most,ram as. segment,os. relações. de. ent.re. eles. A. :flecha. C 11loop").. No diagrama,. assim,. sequência. a. curva. represent.a. uma. repet..ição. a :flecha envolve t..odas as conexões,. de. execução. dos. módulos. poderá. ser. repet,ida. Os losangos são símbolos de decisão.. Assim, em. :funcão de uma inf'or-macão, serã executado o módulo "Manipule Quant..i tati vos", por exemplo, ou um out.ro módulo qualque.r na hi er arquia.. Esse. t.ipo. de. diagrama. não. mostra. quais. as. in:formacões a serem dadas para a passagem de um m6dulo para outro. Os Diagramas Hierárquicos de Blocos devem ser lidos de cima para baixo.. Nesse caso.a execução será:. "Selecione a Ent.r.ada de Dados"'; "Selecione o Tipo de Dados";.

(67) 55. "Calcule a Mat.riz de Dist.ãncia única"� "'Analise os Dados"'.. Escolhendo QUANTITATIVOS",. "MANIPULE. 1luxo. o. DADOS ou. "ªMANIPULE DADOS QUALITATIVOS NOMINAIS". "MANIPULE DADOS QUALITATIVOS ORDINAIS". a sequencia será:. ..Ent.re com Dados" ; "'Padronizar Dados Cno caso de dados quant.itat.ivos:)"; ""Escolher Medidas" ; ""Calcular a Ma t,riz de Dist.ânci as Parcial. 11•. Em seguida o cont.role voltará para "Grupamento Multidimensional (Análise Cl uster). 11,. que poderá entrar no. módulo ..Calcular Matriz de Di.stância Única"' e "'Analise os Dados ... Depois dos dados analisados, partição,. o. 1luxo. segue. para. o. para o mét.odo de. cálculo. das. médias. e. variâncias para cada grupo Iormado e tem-se a opcão de saída em impressora ou em arquivo t.exlo. Encerrada módulo. inicial.. caso. YOURDON. a se. et. análise. deseja a,lU,. diagramas devem incluir t.odos. o. 1azer. (1979) os. 1luxo uma. retornará nova. recomendam. ao. análise.. que. esses. módulos e conexões.. mas. comentam que não é necessário mostrar t,odas as repet.icões e decisões. exibindo simplesmente as estruturas deste t,ipo que.

(68) 57.. sejam import.ant.es. para se ent.ender. o módulo. principal em. linhas gerais.. 3 .. 2$ TÉCNICAS DE .ANÁLISE DE AGRUPAMENTOS As. técnicas. de. Análise. Agrupament.os. de. utilizadas na construção do sistema. :foram: uma. 1). t.écnica. de. partição.. que. é. o. método. "Leading", por ser um mét.odo bast.ant.e rápido na :formação dos grupos. 2). uma. técnica. hierárquica,. que. é. o. mét.odo. do. vizinho mais próximo, por ser um método clássico nest.e t.ipo de análise. Os. :foram. programas. elaborados. segundo. os. algorít.mos já descrit.os e ut.ilizados num conjunt.o de dados reais, demonstrando a simplicidade no manuseio do sist.ema. A obtenção. dos. implementados praticamente. grupos, no. utilizando·. sist.ema,. análogos,. deixando. os. dois. conduziram com. isto. a. o. t.r- anqUilo em t.er mos de escolha dos métodos,. métodos result.ados. usuário. mais. já que não é. possi vel saber qual o melhor pr-ocediment.o a ser- utilizado. Isto acontece devido ao caráter exploratório desse tipo de análise..

(69) !38.. 4.RESULTAOOS E DISCUSSÃO 4. 1 DESCRICÃO DO SISTEMA. O. sist.ema :foi desenvolvi do.. de acordo com o. Diagrama Hierárquico de Blocos propost,o e transformado em linhas de programação, ut.ilizando-se a linguagem Pascal !3.0. e. pode. linha. ser. implementado. PC/XT ou AT.. sub-diretório. de. O. em. programa. disco. auxiliares são criados,. qualquer deve. rígido.. micro-comput.ador ser. pois. implementado vários. da num. arquivos. deixando livre um maior espaço de. memória para sua execução,. devido ao :fat.o de que esse tipo. de análise, em geral é :feit.a com um grande número de dados.. o. programa. principal. CLUSTER.EXE, e, pela exlensão. f'oi. chamado. de. .EXE, não é necessário t.er o. Turbo Pascal inst.alado. Dessa. :forma,. para. inicializar. a. execução.. bast.a di git.ar: C: > CLUST. Iniciada a execucão para um dado conjunto de dados, as opções do "menu" de abertura são mostradas,. como.

(70) 59. na Figura 8.. rI;rnrnmmmnnmmmHirnmI:Hmmmmirntrn:rnmmm�mmmm1:mmm1m:imi!:. r. 453232 bytes 453232 bytes livree. HI!!!!!·. OPCOES. >> Bntracu de dados. 1:. umm·. �. Ili. >> Mudar disp. se.ide de dadoe. I'. I!!:. >> Liete.r dadoe. m. >> Calculo da Matri:z. de Distancie. Unice. i;.,:•. >> Al tere.r drive/diretorio. >> Procedimentos de Analise. �. íl:,;. _. 1:. >> Retorne ao Sistema Operacional. 1.:. !. l dm:u1111.i::unhl:1l:r.::., m11m11w111111111111111111111111mm:11w 11111 m11w111 ;1m11•1 111n1p11 mmm11m111mmmn:F1m:w 1111•m1;;1111mm11•;;mmm1rn1mm11mim1mm •11m111u:;mm11;,;;mm111m:11 j: 11in111:dh:I 1 ulli 1 nuhiiul 1 dud 11 1111II •• !::1u::n1mnu::.:::::1:u:tn!:::uu 1 1::nn11111:uu:::::r:::::::::a:1111.11:t::wn1::111na:1 1hn::ulu�:;�1:ruu.:::aH 1!u·:. Figura 8.. ..Menu 11 de abertura do sistema.. A opção .. Ent.rada de dados'" per mi t.e ao usuã.rio a ent..rada de dados via arquivo t..ext.o ou t.eclado,. conf'orme. most.ra a Figura 9. Se a ent..rada Cor via arquivo t..ext.o (dados gravados. em. arquivos. WS,. SideKick,. Nort.on,. esse arquivo deverá cont.er a ext.ensão .. _ dat .... por. exemplo) •.

(71) lfSO.. ;1t1í!��t�;1;i��!!i�f[��fü��s��!�l���;m�i�iim�nmimimimmmmmummmm�!mm1muummmmmm:mm1mi11 H. jl. il lit i,. Henu de entrade de d&doe. I!:. li. j;. l. >> em Dieco >> via Teclado. >> Retorna. Figura 9.. Opç5es de entrada de dados. A Figura 10 most..ra o "'menu" para escolha dos. t..ipos. de. dados:. quant.i t.at.i vos.. qual i t.at.i vos. nominais. e. ordinais. Para. dados quant..it.at.i�• os dados colocados na forma_ matricial.. pode-se entrar com onde para as linhas. da mat.riz. t.em-se o número de observaç5es a serem agrupadas e nas colunas o número de variãveis consideradas.. O número. máximo de observações permitido é 400 e o número máximo de variáveis quant.itat.ivas é 25. sendo possível ent.ão a entrada de uma mat..riz 400 x 30..

(72) B1.. 1;m;n1nnimnmmnnnrnnlmmn1:i!il:nmrnm!mm1mrnmmmi1mmi:mnmm�!HH!::mmmm;imnm:m11fümmimnmmmmmnmnmrnu;p.. ueter. 1. Menu de Escolha de Dadoe. li 1:1: j!. >> Qusntitativoe. 11 r. li. >> Nominaie >> Ordinaie. lí,:. li. >> Retorna. Firgura 10 '- Opções de escolha do t.ipo de dados.. Para dados qualit.at.ivos nominais. temos apenas dados binários. e. como para dados quantit.at.ivos. permit.e-se a ent.rada de at.é 400 observações e 50 variáveis. uma vez que para esse t.ipo de análise. são mais �requentes.. os dados qual! t.at.i vos nominais. Já para dados qualit.at.ivos ordinais. é. permitida a ent.rada de até 400 observações e 30 variáveis. Apenas. para. dados. quantitativos.. é. dada. a. opção de se fazer uma padronização nos dados, utilizando-se para isso. a média e a variância por colunas. e. evitando de se. calcular. coe�icient.es. de. similaridades. ou. distâncias.

(73) e2. entre observações que não tenham a resma grandeza. Ap6s �eita a leitura de cada tipo. fluxo. faz. qua.nt.1 t.at.i vos.. para. a. escolha. qualitativos. medidas. das. nominais. e. de dados. o para. dados. ordinais.. como. most.ram as Figuras 11 e 12,. e,�m�='!�!;::!Z!!r::::c:1�•;�:;;;ml�:f:mf::;�::::::::::::i!�ffim::g:�!�=g�:::�:!:::::�:::��::::::�;:::�!:i'.'.!!!:::::;::::�:::;�;. n. �----=----ft 1. -. ����f:�::::;.�,:::�!��;;;:��::��!::��;�!�:���:�f�:�m:�����:��::-. Hedidae para De.doe Quant.1tat.1voe. <. i. >> l Dietancia Euclideana >> 2 Di•tancia Euclideana Media >> S Dietancia de Minltoveky >> Retorna. Figura 11. Opç6es de medidas para dados quant.it.at.ivos..

(74) íil!!ll!l!!fli!iHiHfi:ilfi!!n!iiill!i!;. uat.er. i·. 1. tiadida• para Dado• ritual1t.at1voa. >> 1 Coeficiente de Jaccard >> 2 Concor-d11ncia Siçl•• >> S Di■t.111ncia Euclideana Media >> 4 Distancia de Sokal >> Ret.ol"Da. Figura 12. Opções. de. medidas. para. qual i t..a t,i vos. dados. nominais e ordinais.. ,.. lt import.ant..e salient.ar que para o cilculo da mat.riz única de dist.ã.ncias. que é a quart.a opção do ..menu•• de abert.ura, � necessârio pelo menos dois t.ipos de dados. No caso em que se deseja anãlisar apenas dados quant.i t.at.i vos,. por. auxiliar. para. dados. segui da.. f" az-se a ent.r ada dos dados ut.i li zando-se a opção. exemplo.. pode-se. qualit.at.i vos. const.rui r. com. dados. um argui vo. bin!i.rios.. Em. para dados qualit.at.ivos Cnest.e caso t.ant.o faz os dados serem nominais ou ordinais).. Assim, t.em-se agora,. dois conjuntos.

(75) 64.. de dados diferent.es e para (mica.. onde a. penderação. com. indica-se. obt.er. das. o. a. mat.riz de dist.âncias. matrizes. parciais. para. peso. é. feita.. matriz. a. que. é. desnecessária. ficando, assim. apenas a matriz que contém as distâncias de interesse. As matrizes de dist.âncias parciais, que é como estamos nos referindo para cada t.ipo de dados. são guardadas num arquivo texto e num arquivo real (reservado para uso do permitindo. sistema) ,. assim. o. acesso. ao. usuário. desses. resultados parciais. Apenas o arquivo real com esses dados é usado para o cálculo da matriz de distâncias única. Uma outra observação a ser feita é que pode-se calcular as matrizes de distâncias parciais utilizando-se um t.ipo de medida diferente para cada conjunto de dados. para. exemplo,. dados. quantitativos,. em. Distância Euclideana para a matriz parcial. qualitativos.. em. geral,. usa-se. o. usa-se. geral. Por a. Já para dados. Coef'icient.e. de. Jaccard.. Isso pode causar problemas na hora de calcular a mat.riz de distâncias única. funcionam. em. É. preciso observar que essas duas medidas. sentidos. dissimilaridade. e. a. isto. opost.os,. outra. mede. a. é,. uma. similaridade. mede. a. entre. as. observações. Assim, a maneira de se contornar esse problema, é,. por. exemplo,. ponderar. a. matriz. parcial. para. dados. quantitativos com um peso positivo e a matriz parcial para dados qualitat,ivos com um peso negat.ivo. sentido. às. medidas consideradas.. Se. o. Isso dá um mesmo usuário. não. achar.

Referências

Documentos relacionados

Este trabalho teve por objetivo o estudo da dimensão das doenças crônicas, especificamente o diabetes mellitus, visando à elaboração de um modelo de processo

Para reverter essa situa~ão, o setor tel que se tornar aais eficiente e versátil no trata.ento dos recursos florestais.. Pelas suas características tecnológicas, as quais perlitel

Nessa situação temos claramente a relação de tecnovívio apresentado por Dubatti (2012) operando, visto que nessa experiência ambos os atores tra- çam um diálogo que não se dá

ed è una delle cause della permanente ostilità contro il potere da parte dell’opinione pubblica. 2) Oggi non basta più il semplice decentramento amministrativo.

As hemoglobinopatias e outras doenças podem ser diagnosticadas pelo teste de Guthrie para o melhor controle nacional, visto que todas as patologias são caracterizadas como

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

No final, os EUA viram a maioria das questões que tinham de ser resolvidas no sentido da criação de um tribunal que lhe fosse aceitável serem estabelecidas em sentido oposto, pelo