Análise de Dados Multi-relacional Suportada por Técnicas de Pré-processamento de texto e Decomposição por Valor Singular

(1)

—————————————————————————————————————

An´

alise de Dados Multi-relacional Suportada por

T´

ecnicas de Pr´

e-processamento de texto e

Decomposi¸

c˜

ao por Valor Singular

Rosa Virginia Encinas Quille

(2)

SERVI ¸CO DE P ´OS-GRADUA ¸C ˜AO DO ICMC-USP

Data de Dep´osito: Assinatura :

An´

alise de dados multi-relacional suportada por t´

ecnicas de

pr´

e-processamento de texto e decomposi¸

c˜

ao por valor singular

1

Rosa Virginia Encinas Quille

Orientador:

Prof. Dr. Jos´

e Fernando Rodrigues J´

unior

Disserta¸cão apresentada ao Instituto de Ciências Matemáticas e de Computa¸cão - ICMC-USP, como parte dos requisitos para a obten¸cão do t´ıtulo de Mestre em Ciências de Computa¸cão e Matemática Computacional.

USP - S˜ao Carlos Abril/2014

1_{Este trabalho tem o apoio financeiro da CNPq (Conselho Nacional de Desenvolvimento Cient´ıfico e} Tecnol´ogico), processos 133633/2011-0 e 560104/2010-3.

(3)

Dedicat´

oria

A Deus. Aos meus pais, Antonio e Rosa. E aos meus irm˜aos, Betsy e Jose.

(4)

(5)

Agradecimentos

A meu orientador, Prof. Dr. José Fernando Rogrigues Junior, sempre presente e atencioso. Por todos os anos de orienta¸cão, dos trabalhos de pesquisa à conclusão desta disserta¸cão de mestrado e por sua confian¸ca e paciência.

A meus pais Rosa Quille Llaque e Antonio Encinas Atencio, pela educa¸c˜ao, amor e carinho. A meus irm˜aos Betsy e Jose, e a meu cunhado John pelos momentos gratos em fam´ılia.

Ao Instituto de Ciências Matemáticas e de Computa¸cão (ICMC). Aos professores e colegas do Grupo de Bases de dados e Imagens (GBDI) e amigos que conheci em São Carlos.

Ao Conselho Nacional de Desenvolvimento Cient´ıfico e Tecnol´ogico (CNPq), pelo au-x´ılio financeiro.

(6)

(7)

Resumo

O Digital Bibliography & Library Project (DBLP) é o maior repositório da literatura de ciência da computa¸cão, composto por informa¸cões sobre autores, artigos, ve´ıculos e eventos. Este conjunto de entidades determina uma estrutura de dados complexa, cujos padrões subjacentes não são diretamente observáveis. Neste cenário, foi modelado o DBLP como um esquema relacional cuja representa¸cão gráfica é processada com análise de texto e ferramentas algébricas baseadas na SVD. Utiliza-se análise de texto aplicadas em termos extra´ıdos dos t´ıtulos dos artigos em DBLP e aplicar-se a SVD sobre as rela¸cões definidas entre estes termos, ve´ıculos de publica¸cão, e autores. Como resultado, foi-se capaz de identificar as comunidades mais representativas e os autores mais ativos, relacionando-os com os termos e temas mais significativos encontrados em suas respectivas publica¸cões. Portanto, este trabalho descreve um processo anal´ıtico como um conjunto de princ´ıpios que definem um método de análise de dados relacional, em geral, e que tem potencial em outros dom´ınios de dados.

(8)

(9)

Abstract

The Digital Bibliography & Library Project (DBLP) is the largest repository of compu-ter science licompu-terature, composed of information on authors, articles, vehicles, and events. This set of entities determines a complex data structure whose underlying patterns are not straightly observable. In this scenario, we model DBLP as a relational schema whose graph representation is processed with text analytics and algebraic tools based on Singu-lar Value Decomposition (SVD). We use text analytics applied on terms extracted from the titles of the articles in DBLP and apply SVD on the relationships defined between these terms, publication vehicles, and authors; as result, we were able to identify the more representative communities and the more active authors relating them to the most mea-ningful terms and topics found in their respective publications. We describe our analytical process as a set of principles that define a method for relational data analysis in general and that has potential in other data domains.

(10)

(11)

Sum´

ario

Lista de Figuras xi

Lista de Tabelas xiii

Lista de Abreviaturas e Siglas xiv

1 Introdu¸c˜ao 1

1.1 Defini¸c˜ao do Problema e Motiva¸c˜ao . . . 2

1.2 Dom´ınio de dados . . . 3

1.3 Padr˜oes e Tomada de Decis˜ao . . . 3

1.4 Objetivos . . . 4

1.5 Principais Contribui¸c˜oes . . . 5

1.6 Organiza¸c˜ao do Trabalho . . . 5

2 Decomposi¸c˜ao de Valor Singular 7 2.1 Considera¸c˜oes Iniciais . . . 7

2.2 Conceitos b´asicos de SVD de uma matriz . . . 7

2.3 Linha de evolu¸cão e tendências históricas . . . 10

2.4 Aproxima¸c˜ao por matriz de baixo posto (low-rank approximation) . . . 12

2.5 M´etodos de c´alculo para SVD . . . 16

2.6 M´etodos de agrupamento com SVD . . . 18

2.6.1 Agrupamento por signal . . . 18

2.6.2 Outros m´etodos . . . 20

2.7 Aplica¸c˜oes da SVD . . . 21

2.8 Considera¸c˜oes Finais . . . 22

3 An´alise espectral de grafos 25 3.1 Considera¸c˜oes Iniciais . . . 25

(12)

3.3 Deriva¸c˜ao de relacionamentos no contexto multi-relacional . . . 26

3.4 An´alise das propriedades do grafo . . . 27

3.5 Exemplo de SVD no contexto da comunidade acadˆemica baseado em grafo 29 3.6 Considera¸c˜oes Finais . . . 31

4 T´ecnicas de processamento de texto 33 4.1 Considera¸c˜oes Iniciais . . . 33

4.2 Tratamento com textos . . . 33

4.2.1 Tokeniza¸c˜ao . . . 34

4.2.2 Elimina¸c˜ao de stopwords . . . 35

4.2.3 Stemming . . . 36

4.3 Aplica¸c˜ao de m´etodos estat´ısticos . . . 37

4.3.1 ´Indice de distribui¸c˜ao de Theil . . . 37

4.3.2 Princ´ıpio de Pareto . . . 37

4.3.3 Distribui¸c˜ao de termos pela lei de Zipf . . . 38

4.3.4 A curva de Zipf e os cortes de Luhn . . . 38

4.4 Considera¸c˜oes Finais . . . 40

5 Metodologia desenvolvida e seus resultados 41 5.1 Considera¸c˜oes Iniciais . . . 41

5.2 Descri¸c˜ao da Metodologia Desenvolvida . . . 41

5.2.1 Pr´e-processamento e limpeza de dados . . . 42

5.2.2 Modelagem de dados e transforma¸c˜ao relacional . . . 44

5.2.3 Sele¸c˜ao de dados . . . 45

5.3 Experimentos com SVD para a dete¸c˜ao de comunidades . . . 50

5.3.1 Caso 1: Termos (Theil) x Ve´ıculos . . . 51

5.3.2 Caso 2: Termos (Luhn) x Ve´ıculos (Luhn) . . . 54

5.3.3 Caso 3: Termos (Luhn) x Autores . . . 56

5.4 Considera¸c˜oes finais . . . 58

6 Conclus˜oes 59 6.1 Conclu¸c˜oes. . . 59

(13)

Lista de Figuras

1.1 Modelo entidade/relacionamento dos dados do projeto. . . 3

2.1 Ilustra¸c˜ao esquem´atica da SVD. . . 10

2.2 Agrupamento usando padrões sinal dos dois primeiros vetores singulares m = 7 e k = 2, matriz como um conjunto de 7 pontos em 2 dimensões, Umxk. Esta matriz U representa os autores com rela¸cão semântica aos eventos. 19

2.3 Com k = 2 a matriz ´e A7x2: Matriz como um conjunto de 7 pontos em 2

Dimens˜oes. . . 20

2.4 Reordena¸c˜ao da matriz A. . . 20

2.5 Ilustra¸c˜ao de clustering na redu¸c˜ao da dimensionalidade com CSVD. . . 21

2.6 Ilustra¸c˜ao da representa¸c˜ao de documentos com SVD por Wei Song et al. [Song & Park, 2007]. . . 22

2.7 Ilustra¸c˜ao de SVD-gaps clustering quando o conjunto de dados ´e projetado em um vetor singular por Douglas [Douglas, 2008]. . . 22

3.1 Ilustra¸c˜ao de coordenadas espectrais de unbalanced graphs generated de Synth-2 - Leting et al. [Wu et al., 2011]. . . 26

3.2 Gráfico tra¸cando a rela¸cão entre o número de vértices e o número de arestas para dados da DBLP entre 1993 e 2003. . . 28

3.3 Grafo exemplo - relacionamento “professor participa de evento” muitos-para-muitos ente instâncias de professores e instâncias de eventos. Os pesos das arestas indicam quantas participa¸cões de um dado professor em um dado evento. . . 30

3.4 Decomposi¸c˜ao por valor singular correspondente ao grafo da Figura 3.3. . . 30

4.1 Exemplo de t´ıtulos de artigos que precisam do processo de tokeniza¸c˜ao para a limpeza dos textos. . . 34

4.2 A curva de zipf e os cortes de Luhn. . . 39

(14)

5.1 Metodologia proposta. . . 43

5.2 Pr´e-processamento para os t´ıtulos.. . . 43

5.3 Entity - Relationship model of DBLP.. . . 45

5.4 Distribui¸cão dos autores-artigos. (a) número de artigos x número de auto-res. (b) Rank-plot sobre o ´ındice do autor x número de artigos.. . . 46

5.5 I-´esimo termo mais frequente x a Frequˆencia do termo. . . 48

5.6 (a) TF-rank x a Importˆancia do significado do termo (TS) (b) Termo x a importˆancia recalculada dos termos. . . 49

5.7 Ilustra¸c˜ao da distribui¸c˜ao de Theil para os conjuntos de termos. . . 50

5.8 Representa¸c˜ao de um grafo bipartido com base nas rela¸c˜oes entre entidades Termos e autores. . . 51

5.9 Scree-plot dos n´ıveis de energia da SVD de Termos (com Theil) x Ve´ıculos. 53

5.10 Scree-plot dos n´ıveis de energia da SVD para os Termos (Luhn) x Ve´ıculos. 54

5.11 Scree-plot dos n´ıveis de energia da decomposi¸c˜ao SVD para Termos (Luhn) x Authors. . . 57

(15)

Lista de Tabelas

2.1 Técnicas de aproxima¸cões mais populares de decomposi¸cão, tabela

adap-tada de [Menon & Elkan, 2011] . . . 13

2.2 M´etodos gerais para o c´alculo da SVD. . . 14

2.3 Compara¸cão de complexidade de tempo e precisão dos métodos de aproxi-ma¸cão low-rank, tabela de [Menon & Elkan, 2011]. . . 15

5.1 Entidades envolvidas no an´alise. . . 45

5.2 Princ´ıpio de Pareto ou a regra 80-20. . . 46

5.3 Distribui¸c˜ao de Theil.. . . 48

5.4 Configura¸c˜oes de conjuntos de dados utilizados nos experimentos. . . 51

5.5 Termos (com Theil) x Ve´ıculos – termos mais importantes (mais alto score) em 6 comunidades principais. . . 53

5.6 Termos (Theil-only) x Ve´ıculos – dois ve´ıculos como ´areas de especialidade - segunda e terceira comunidades. . . 53

5.7 Termos (Luhn) x Ve´ıculos (Luhn) – termos mais frequentes em 6 comunidades. 55 5.8 Termos (Luhn) x Ve´ıculos (Luhn) – as seis principais conferˆencias e revistas na segunda e 16a. comunidades. . . 55

5.9 Termos (Luhn) x Autores – termos mais frequentes em 6 comunidades. . . 57

5.10 Termos (Luhn) x Autores - seis melhores autores nas segunda e quarta comunidades. . . 57

(16)

(17)

Lista de Abreviaturas e Siglas

CSVD Agrupamento e Decomposi¸c˜ao de Valor Singular (Clustering and Sin-gular Value Decomposition).

DBLP Digital Bibliography & Library Project.

GBdI Grupo de Bases de Dados e de Imagens - ICMC - USP.

MRDM Minera¸c˜ao de Dados Multi-Relacional (Multi-Relational Data Mi-ning).

RDF (Resource Description Framework ).

SVD Decomposi¸c˜ao de Valor Singular (Singular Value Decomposition). W3C (World Wide Web Consortium).

(18)

Cap´ıtulo

1 Introdu¸

c˜

ao

O

grande crescimento de dados em diferentes dom´ınios e, por consequência, a análise destes dados de alta complexidade, levaram à necessidade de desenvol-vimento de técnicas e métodos capazes de descobrir conhecimento. O conheci-mento a ser descoberto tem o intuito de fomentar o apoio à tomada de decisões, motivando assim trabalhos nas áreas de banco de dados, minera¸cão de dados, recupera¸cão de dados e visualiza¸cão de dados. Na atualidade, estes trabalhos têm aplica¸cão em diversas frentes como Web e biologia, onde a eficiência e a eficácia das técnicas são fatores importantes. Nestes contextos, as aplica¸cões precisam ser cada vez mais precisas nos resultados den-tro de prazos menores. Desta maneira, hoje em dia existem algoritmos de decomposi¸cão espectral com complexidades cada vez menores, possibilitando assim a gera¸cão de solu-¸cões cada vez com melhores resultados. Neste sentido as técnicas de análise de dados tornaram-se um campo de muito interesse, gerando assim diversos métodos, técnicas e ferramentas.

Neste trabalho, uma das principais técnicas a serem utilizadas para a análise de dados é a “Decomposi¸cão por Valor Singular” (Singular Value Decomposition - SVD ) - também conhecida como decomposi¸cão espectral, a qual se baseia em métodos algébricos - opera-¸cões matriciais; este processo, aqui, é combinado com técnicas de pré-processamento de texto. Assim no contexto Multi-Relacional de dados, tem-se como objetivo desenvolver solu¸cões em minera¸cão de dados, desenvolvendo uma metodologia que englobe a SVD para a minera¸cão de dados representados como grafos processados algebricamente. O que se pretende, mais especificamente, é o trabalho com relacionamentos “muitos para muitos”, os quais definem grafos multi-partidos. Objetiva-se a análise exploratória de múltiplas rela¸cões, por meio de técnicas baseadas em deteçcão de comunidades. Deve-se, então, alcan¸car padrões que possam ser usados para o suporte à decisão, permitindo a avalia¸cão,

(19)

a previsão, e a determina¸cão de alternativas. Mais especificamente, define-se um método a ser utilizado sobre as rela¸cões encontradas em bancos de dados relacionais em geral, considerando-se várias entidades e suas intera¸cões.

1.1 Defini¸

c˜

ao do Problema e Motiva¸

c˜

ao

Os sistemas Gerenciadores de Bancos de Dados têm contribu´ıdo para o crescimento do volume de dados armazenados em diversos segmentos da sociedade. Alguns dos desafios que surgem com este fenômeno é a necessidade de análise e indexa¸cão de dados com alta complexidade, e o desejo de se poder extrair informa¸cões que apoiem à tomada de decisões. Na prática de bancos de dados, um problema do mundo real deve ser modelado para uma estrutura adequada ao manuseio dos dados e ao funcionamento de um sistema gerenci-ador. O principal paradigma da modelagem é o chamado modelo relacional, já fortemente consolidado na indústria. Em suma, este modelo determina um arranjo de conceitos que inclui dom´ınios, esquemas, rela¸cões (tabelas), tuplas, chaves e restri¸cões de integridade [Ramakrishnan & Gehrke, 2002]. Este conjunto é capaz de tratar um amplo espectro da problemática envolvida na gerência de dados. Instanciado em avan¸cados sistemas gerenciadores de bancos de dados, o modelo relacional permite a constru¸cão de ambien-tes de dados de tamanho variável compostos por componentes menores de tamanho fixo [Kroenke, 2005]. O principal recurso envolvido é o de relacionamentos entre entidades, o que, no modelo relacional, se traduz em restri¸cões de integridade entre rela¸cões que referenciam umas às outras.

O que se observa no modelo relacional são dois tipos de informa¸cões: dados (instâncias de entidades) e relacionamentos entre os dados. Ao passo que a modelagem relacional de dados já foi objeto de intenso estudo ao longo dos últimos 40 anos, a análise das informa-¸cões incorporadas nos relacionamentos ainda carece de investiga¸cão em diversas frentes. Como tais relacionamentos carregam significativa semântica do sistema, é importante que tais informa¸cões também sejam objeto de estudo. A semântica basicamente busca descre-ver o significado dos termos, senten¸cas, sinais e s´ımbolos; estuda e esmiú¸ca o sentido no e do lingu´ıstico. A problemática do significado tem vindo a ser contestada desde a anti-guidade clássica, o mesmo Platão em Crátilo questiona a rela¸cão ocorrente entre termos e coisas. Porém, só no século XX é que a semântica passou a ser uma disciplina funda-mental dos estudos lingu´ısticos, apresentando estudos mais complexos e aprofundando os primordiais clássicos.

Partindo da problemática de se definir o termo significado e levando em conta que o conceito de significa¸cão transborda as fronteiras da lingu´ıstica é que, por meio de um conjunto de princ´ıpios que definem um método de análise relacional pode-se mais bem aproveitar as informa¸cões, como se desenvolve no presente trabalho.

A importância de se trabalhar com os relacionamentos entre as entidades que compõem o banco de dados se manifesta nas áreas de bancos de dados dedutivos [Zaniolo, 1990],

(20)

já há alguns anos em iniciativas como o padrão W3C Resource Description Framework – RDF [Lv & Ma, 2008], e na mais recente, “Minera¸cão de Dados Multi-Relacional” (Multi-Relational Data Mining - MRDM ) [Dveroski, 2003][Guo & Viktor, 2008]. Estas pesquisas procuram extrapolar o uso dos relacionamentos entre os dados para além dos dom´ınios na-turalmente relacionados, como redes sociais e intera¸cão proteica. Suas aplica¸cões buscam inferir padrões que envolvam múltiplas rela¸cões do banco, enriquecendo as possibilidades de uso.

1.2 Dom´ınio de dados

Este projeto prevê técnicas aplicáveis a qualquer banco de dados a partir do qual um grafo possa ser extra´ıdo, no entanto, especificamente, os experimentos serão executados sobre a estrutura relacional ilustrada na Figura 1.1 instanciada sobre a base de dados da DBLP (Digital Bibliography & Library Project) [Ley, 2009]. Este dom´ınio define um conjunto de dados ricamente constitu´ıdo de informa¸cões semânticas, levantando diversas questões, como discutido na próxima subse¸cão.

Instituição Grupo

Autor Área(tema)

Evento Veículo

Artigo Palavra-_chave Compõe Participa Possui Participa Cria Possui Publica Cita Possui 1 M M N M M M N 1 1 1 N N M M N N N

Figura 1.1: Modelo entidade/relacionamento dos dados do projeto.

1.3 Padr˜

oes e Tomada de Decis˜

ao

O termo padrão se refere não exaustivamente às seguintes possibilidades: tendência, cor-rela¸cão, classifica¸cão, relacionamento, ordem, exce¸cão, agrupamento, estrutura, e sumari-za¸cão. Segundo Thomas e Cook [J. J. Thomas, 2005], padrões são os subs´ıdios necessários `

a tomada de decisão, isto é, a avalia¸cão, a previsão e a determina¸cão de alternativas em problemas complexos. Por se tratar de uma atividade exploratória de dados, o conjunto

(21)

espec´ıfico de poss´ıveis padrões a serem identificados não é conhecido a priori mas, con-siderando as possibilidades existentes, os padrões e questões a serem considerados são listados a seguir:

(1) Classifica¸cão: quais são os autores mais similares? como tais autores podem ser classificados de acordo com áreas espec´ıficas do conhecimento? o quanto os eventos são similares de acordo com as palavras chaves de seus trabalhos?

(2) Ordem: quais s˜ao os autores mais centrais em uma rede de co-autoria?

(3) Exce¸cão: existem instâncias de entidades com comportamento anormal? com ex-cesso de intera¸cões? com valores discrepantes para algum atributo? existem autores excessivamente similares com rela¸cão à co-autoria, a rede de intera¸cão, a colabora¸cão mútua?

(4) Agrupamento: é poss´ıvel tra¸car a semelhan¸ca entre autores? como esta semelhan¸ca se manifesta de acordo com cada atributo? área? palavras chaves? eventos em que participou? co-autoria? quais são as principais comunidades?

1.4 Objetivos

O objetivo deste trabalho é o de investigar e desenvolver solu¸cões em minera¸cão de da-dos, desenvolvendo uma metodologia anal´ıtica de dados. Definindo uma engenharia que englobe técnicas de otimiza¸cão de Decomposi¸cão por Valor Singular e Técnicas de pr´ e-processamento de texto, possibilitando a análise exploratória de múltiplas rela¸cões.

Para a prospeçcão de padrões, serão usadas as técnicas descritas nos cap´ıtulos2, 4, e

3: Decomposi¸cão por Valor Singular, técnicas de pré-processamento de texto, deriva¸cão de relacionamentos a partir de bancos de dados relacionais, e análise das propriedades de grafos. Sendo que nenhuma destas técnicas é limitada a um padrão espec´ıfico listado. Uma vez encontrados os padrões, pode-se seguir para a tomada de decisão, como prevê a ordem proposta por Thomas e Cook [J. J. Thomas, 2005]. Dentre as possibilidades, deve-se trabalhar dentro dos seguintes conjuntos:

(a) Avalia¸c˜ao:

• Como as ´areas, comunidades e eventos s˜ao comparados metricamente?

• Há autores com produ¸cão acima da média? Quais são suas técnicas de traba-lho? Alta colabora¸cão, amplitude de temas, diversifica¸cão de ve´ıculos?

(b) Determina¸c˜ao de alternativas:

• Quais medidas podem ser sugeridas para que comunidades bem definidas tornem-se mais produtivas?

(22)

• É poss´ıvel sugerir a¸cões que melhorem a colabora¸cão entre diferentes grupos, ou entre autores?

• Pode-se sugerir a cria¸cão de novos eventos ou ve´ıculos de divulga¸cão que mais bem traduzirão as atividades dos pesquisadores?

Em suma, este trabalho explora técnicas de pré-processamento de texto e SVD, com a finalidade de encontrar padrões semânticos em dados Multi-Relacionais.

1.5 Principais Contribui¸

c˜

oes

A principal contribui¸cão deste trabalho é o desenvolvimento de uma metodologia anal´ıtica, bem definida com um conjunto de passos, que utilizam a abordagem de pré-processamento de textos e SVD. O trabalho desenvolve desafios ainda não explorados da minera¸cão de dados relacional, usando representa¸cões de grafo no contexto da comunidade de ciência da computa¸cão. Sobre dados do sistema DBLP deve-se criar uma representa¸cão relacional do dom´ınio, a partir do qual irão se instanciar representa¸cões de grafo nas quais os vértices representam instâncias de entidades (autores, eventos, artigos, periódicos), e as arestas representam relacionamentos (co-autoria, cita¸cão, publica¸cão) entre as instâncias.

A prospeçcão de padrões de relacionamento focando em dados relacionais é uma área de pesquisa ainda a ser explorada. A maior parte dos trabalhos já publicados usam da-dos inerentemente relacionada-dos, produzindo padrões sobre uma única classe de entidade – como participantes de uma rede social ou computadores de uma rede. Assim, consi-derando as técnicas descritas neste trabalho, a pesquisa desenvolvida tem as seguintes caracter´ısticas:

(a) Define uma engenharia que englobe técnicas de pré-processamento de texto e de Decomposi¸cão por Valor Singular, permitindo a análise exploratória de múltiplas rela¸cões (tabelas) de dados.

(b) Como os padrões encontrados podem ser usados para o suporte à decisão, permitindo a avalia¸cão, e a determina¸cão de alternativas.

1.6 Organiza¸

c˜

ao do Trabalho

Este trabalho está organizado em 6 cap´ıtulos, no primeiro cap´ıtulo foram apresentadas as considera¸cões iniciais, os problemas, a motiva¸cão e os objetivos para o desenvolvimento do projeto. O restante do documento tem a seguinte estrutura:

• No cap´ıtulo 2 são introduzidos os principais conceitos envolvidos no processo do análise espectral com a Decomposi¸cão por Valor Singular (SVD).

• No cap´ıtulo 3 são apresentadas as defini¸cões sobre a análise espectral de grafos com um exemplo de SVD no contexto da comunidade acadêmica baseada em grafo.

(23)

• No cap´ıtulo 4 são abordados os principais conceitos relacionados às técnicas de pré-processamento de texto.

• No cap´ıtulo 5é apresentada a Metodologia desenvolvida e seus resultados. • No cap´ıtulo 6 são descritas as conclusões.

(24)

Cap´ıtulo

2 Decomposi¸

c˜

ao de Valor Singular

2.1 Considera¸

c˜

oes Iniciais

N

este cap´ıtulo são apresentados os principais conceitos sobre a Decomposi¸cão de Valor Singular (Singular Value Decomposition - SVD ), que estão relacio-nadas com o desenvolvimento da presente Disserta¸cão. Para cada um destes ramos, são apresentados exemplos de métodos do estado da arte, enfocando as potencialidades e as deficiências de cada um deles. Desta forma, permite-se uma melhor escolha dos métodos adequados sobre a variedade de técnicas dispon´ıveis para o desenvolvimento do problema. Inicialmente são apresentados os principais conceitos que envolvem a Decomposi¸cão de Valor Singular (SVD) sobre matrizes. Feito isto, passar-se-á a uma breve discussão sobre sua história; posteriormente, aos métodos e as técnicas propostas na literatura vigente.

2.2 Conceitos b´

asicos de SVD de uma matriz

Nesta disserta¸cão os termos valor singular e vetor singular são utilizados diversas vezes, da´ı a importância de uma defini¸cão precisa e formal destes conceitos. Para tanto recorrer-se-á a Manning et al. [Manning et al., 2008] e Yanai et al. [Yanai et al., 2011]. Logo após definir esses conceitos, passaremos a uma defini¸cão formal de SVD.

(25)

Defini¸cão 1. Valor singular e vetor singular de uma matriz: Dada uma Matriz quadrada A de dimensão n chama-se de valor singular (ou valor caracter´ıstico) ao escalar λ e de vetor singular (ou vetor caracter´ıstico) ao vetor x, (x 6= 0) de n-componentes que satisfazem à equa¸cão 2.1 da matriz A.

Ax = λx (2.1)

A equa¸cão matricial determina um n-componente do vetor x cuja dire¸cão permanece inalterada pela transforma¸cão linear A. Os valores singulares de uma matriz encontram-se resolvendo a equa¸cão caracter´ıstica. Isto é obtido por meio de uma redefini¸cão da equa¸cão

2.1 na forma (A-λIn)x=0. Os valores singulares de A s˜ao a solu¸c˜ao de | (A-λIn) |= 0,

onde | S | indica a determinante de uma matriz quadrada S. A equa¸c˜ao | (A-λIn) |= 0 ´e

uma equa¸cão polinomial de enésima-ordem em λ e pode ter no máximo n ra´ızes, que são os valores singulares de A.

Outra defini¸cão a ser considerada é a de decomposi¸cão de uma matriz segundo Manning et al. [Manning et al., 2008]. Convém observar que a defini¸cão é dada para uma matriz quadrada A.

A decomposi¸cão de uma matriz quadrada no produto de três matrizes de uma forma especial é dada principalmente por meio de dois teoremas.

Teorema 1 (Teorema da diagonaliza¸cão de uma matriz). Dado uma matriz A de n × n tem-se que esta é diagonalizável se, e somente se, A tem n autovetores linearmente inde-pendentes. E ainda existe uma decomposi¸cão singular da seguinte forma (eigen decompo-sition):

A = U SU−1 (2.2)

Onde as colunas de U são vetores singulares de A e S é uma matriz diagonal cujos elementos são valores singulares de A em ordem decrescente:

(26)

S =          λ1 λ2 . .. λn          , λi ≥ λi+1

No teorema2introduz-se um estado estritamente próximo relacionado à decomposi¸cão de uma matriz quadrada simétrica dentro de produto de matrizes derivadas de seus vetores singulares. Isto irá abrir o caminho para o desenvolvimento da decomposi¸cão em valores singulares que é explicada na defini¸cão 2.

Teorema 2 (Teorema da diagonaliza¸cão simétrica). Dada uma matriz simétrica de valores reais A de ordem n × n, com n vetores singulares linearmente independentes, tem-se que existe uma decomposi¸cão diagonal simétrica:

A = QSQ−T (2.3)

Onde as colunas de Q são vetores singulares ortogonais e normalizados de A, e S é a matriz diagonal cujos elementos são os valores singulares de A. Desta maneira, todos os elementos de Q são reais e Q−1 = QT_.

A decomposi¸cão tem sido estudada em matrizes quadradas. No entanto, o interesse do estudo nesta pesquisa é para matrizes com dimensões n × m da matriz A. Onde n 6= m; então, é bastante plaus´ıvel que A não seja simétrica.

Na seguinte defini¸cão será descrita uma extensão da decomposi¸cão diagonal simétrica que é conhecida como a decomposi¸cão de valor singular (SVD).

Defini¸c˜ao 2. Decomposi¸c˜ao de Valor Singular: Dada uma matriz An×m, tal que

A2 _´_{e positiva-semidefinida, tem-se que A pode ser expressa segundo a igualdade:}

An×m= Un×rSr×rVr×mT = rank(A) X i=1 (λiui⊗ vi) (2.4) Onde:

(27)

• O s´ımbolo ⊗ é o produto externo dos dois vetores dados, e o rank(A) é o rank da matriz A. O rank da matriz é o número de linhas (ou colunas) linearmente independentes desta; então, o rank(A) ≤ min{n, m};

• Os valores singulares λ1, . . . , λr de AAT s˜ao os mesmos os valores singulares de

AT_A;

• Matriz Un×r ´e constitu´ıda de n vetores de “entrada”, 1 ≤ r ≤ min{n, m};

• Sr×r ´e uma matriz diagonal constitu´ıda por r autovalores si,j, i = j;

• VT

r×m ´e uma matriz constitu´ıda de r vetores de “sa´ıda”.

Os vetores da matriz VT _s˜_{ao ortonormais, ou seja, linearmente independentes e com}

norma unitária, isto é, determinam uma nova base capaz de representar A por meio de combina¸cões lineares de U S. Assim, a matriz U equivale à matriz A num outro espa¸co vetorial (sistema de coordenadas).

Na Figura2.1, apresentam-se uma ilustra¸c˜ao da SVD sobre uma matriz A. Esta matriz A ´e retratada em dois casos, quando n > m e a quando n < m.

A

nxm

U

_rxr

V

T

S

nxr _rxm

=

.

=

.

n > m n < m 5x3 5x3 3x3 3x3 3x5 3x3 3x3 3x5

Figura 2.1: Ilustra¸c˜ao esquem´atica da SVD.

2.3 Linha de evolu¸

c˜

ao e tendˆ

encias hist´

oricas

Uma questão que foi muito desenvolvida no campo da teoria das matrizes é a decomposi¸cão de uma matriz (matrix decomposition) ou da forma canônica (canonical form). Esta teoria tem sua utilidade principalmente no estudo de álgebra linear numérica, que serve como

(28)

plataforma computacional a partir da qual um variado número de problemas pode ser resolvido. Um dos muitos tipos de decomposi¸cões é a decomposi¸cão de valor singular (Singular Value Decomposition - SVD ). O estabelecimento da existência desta teoria SVD é devido, inicialmente, a cinco matemáticos −o italiano Eugenio Beltrami (1835-1899), o francês Camille Jordan (1838-1921), o inglês James Joseph Sylvester (1814-1897), o alemão Erhard Schmidt (1876 - 1959) e o alemão Hermann Weyl (1885-1955). Beltrami, Jordan e Sylvester chegaram à decomposi¸cão através da álgebra linear; Schmidt e Weyl aproximaram-na a partir das equa¸cões integrais [Stewart, 1993].

Em 1873 Beltrami desenvolveu a SVD, criando um algoritmo próprio para o cálculo desta; mas seus métodos ainda tinham algumas limita¸cões, eram só para matrizes qua-dradas, reais e não-singulares que tem valores singulares distintos. Depois de um ano, em 1874, Jordan desenvolveu a SVD reduzindo uma forma bilinear a uma forma diagonal por substitui¸cões ortogonais − é considerada uma solu¸cão mais sofisticada do que Beltrami; em 1889, Sylvester obteve resultados similares ao de Jordan, seu método envolvia ignorar termos de segunda ordem. Logo depois, em 1907, Schmidt introduziu, de forma pioneira, a SVD em equa¸cões integrais, usou-a para obter uma melhor aproxima¸cão de um operador. Outro matemático que trabalhou com integrais foi Weyl em 1912, que desenvolveu uma teoria de perturba¸cão geral, e obteve uma sofisticada prova do teorema da aproxima¸cão.

Assim o SVD ´e definido como A = U SVT _{onde A ´}_{e uma matriz real de ordem n; sendo}

S o conjunto de valores singulares, S = diag(λ1, . . . , λr), e tem elementos diagonais n˜ao

negativos ordenados de forma decrescente; desta forma, as matrizes U = (u1, u2, . . . , un)

e V = (v1, v2, . . . , vn) s˜ao matrizes ortogonais com um conjunto de vetores singulares.

Desta maneira, a SVD é considerada como uma técnica de fatora¸cão de matrizes, que é uma importante ferramenta em aplica¸cões, tais como processamento de sinais e estat´ıstica [Zheng et al., 2002][Baker & DeGroat, 1998]. Gra¸cas aos esfor¸cos pioneiros de Gene Go-lub, existem algoritmos estáveis para calcular a SVD que fornecem ótimas aproxima¸cões do tipo low-rank approximations para A.

(29)

2.4 Aproxima¸

c˜

ao por matriz de baixo posto

(low-rank approximation )

Quando os dados são muito grandes, a aplica¸cão de SVD pode ser um processo bastante custoso em termos computacionais. Para obter resultados mais rápidos existem poss´ıveis solu¸cões, que são chamadas aproxima¸cões SVD, e métodos (algoritmos) com melhores complexidades de tempo e precisão.

A aproxima¸c˜_{ao por matriz de baixo posto de uma matriz A ∈ R}m×n _´_{e alguma matriz}

ˆ

A ∈ Rm×n_{, que satisfaz duas propriedades seguintes:}

(i) rank( ˆA) rank(A)

(ii) k A - ˆA kM ´e pequena para alguma matriz normal k.kM

Os algoritmos exatos da SVS requerem um grande custo computacional. Por esta razão, são propostos algoritmos de aproxima¸cões de decomposi¸cão de uma matriz, com a finalidade de lograr aproxima¸cões cada vez mais precisas [Fradkin & Madigan, 2003] e [Sun et al., 2008]. Recentemente, diversos métodos de aproxima¸cões de SVD foram pro-postos na literatura, principalmente para a otimiza¸cão em tempo de execu¸cão assintótica e redu¸cão da complexidade de análise, onde a SVD é uma matriz de aproxima¸cão.

Estes métodos foram estudados em conjuntos de dados densos e esparsos. Estes con-textos mostraram os seguintes problemas: grandes matrizes causam problemas de comple-xidade em tempo e espa¸co de muitos algoritmos; apesar dos dados do mundo real terem dimensionalidade aparentemente alta, na verdade têm baixa dimensionalidade intr´ınseca. Frente a estes problemas existem as aproxima¸cões de matrizes, como no trabalho de Gorrell [Gorrell, 2006], que faz uma sumariza¸cão bem ordenada.

A Tabela 2.1 apresenta algumas técnicas de aproxima¸cões low-rank e suas decomposi-¸cões.

Segundo Menon & Elkan [Menon & Elkan, 2011], existem três métodos gerais na lite-ratura para o cálculo de aproxima¸cões de SVD. Estes métodos podem ser para matrizes esparsas (sparsify), colunas de amostragem (sampling columns) de A e incorpora¸cão (em-bedding) em um espa¸co de menor dimensão. Na Tabela 2.2 apresenta-se estes métodos

(30)

Tabela 2.1: Técnicas de aproxima¸cões mais populares de decomposi¸cão, tabela adaptada de [Menon & Elkan, 2011]

.

Técnicas de aproxima¸cões Decomposi¸cões Referencias

SVD A = U SV

T

U ∈ Rmxk, ∧ ∈ Rkxk, VT _{∈ R}nxk [Golub & Van-Loan, 1996] CUR A = CU R C ∈ Rmxk_{, U ∈ R}kxk_{, R ∈ R}nxk C cont´em k colunas de A [Sun et al., 2008] Interpolative decomposition A = P B P ∈ Rmxk_{, B ∈ R}kxn P cont´em k colunas de A [Liberty et al., 2007]

gerais para o c´alculo da SVD.

Em um trabalho recente, Menon e Elkan [Menon & Elkan, 2011] fazem compara¸cões das diferentes técnicas de SVD visando a garantia de bom funcionamento e boa comple-xidade de tempo e precisão dos métodos sobre uma matriz Am×n. Estes métodos

compa-rados são os mais interessantes do ponto de vista prático, o que corresponde àqueles com as melhores garantias conhecidas e que foram a base da maioria das novas pesquisas. A Tabela2.3 ilustra um resumo desses métodos de aproxima¸cões low-rank para SVD.

Estas aproxima¸cões geralmente trabalham com tipos de decomposi¸cões, sejam elas em duas ou três matrizes neste caso com a SVD. As a¸cões pelas quais se usam as decompo-si¸cões de baixo posto são:

Remo¸cão de ru´ıdo. É o processo de reduzir a matriz original a uma matriz mais sim-plificada que descreva a matriz original. Em muitas aplica¸cões do mundo real, os dados podem possuir significados intr´ınsecos pequenos e com uma aparente grande dimensionalidade. Em outras palavras, se pode obter um subespa¸co com rankk, onde k min{m, n}.

Poupar espa¸co. Quando se faz a redu¸cão, considera-se um rank k de aproxima¸cão por SVD, o espa¸co requerido é O((m + n)k, k2_{), em oposi¸c˜}_{ao de O(mn).}

Descri¸cão de dados. Uma matriz decomposta pode fornecer valores de informa¸cão que ajudam a análise da estrutura das entradas. Por exemplo, nas aplica¸cões de filtragem colaborativa para um problema de recomenda¸cão de filmes, a entrada é uma matriz A, onde Aij representa a classifica¸cão do usuário i na linha j.

(31)

Tabela 2.2: M´etodos gerais para o c´alculo da SVD.

M´etodo Sparsification Colunas de

amos-tragem Embedding Algoritmo (1) Manter elemento Aij com probabilidade pij, de outra forma substitu´ı-lo com 0, dada uma aproxima-¸cão Â. (2) Chamada SVD em Â, dado A= U SVT_. (3) Retornar: U ,S,Q C [V ]. (1) Escolha c colunas Ai1_,...,Aic _com probabilidades p1,...pn. (2) Formar a matriz C = [s1Ai1...scA(ic)] onde S1,...,Sc são fatores de escala . (3) Chamar SVD em CT_{C, dado} CTC = U SVT. (4) Retornar: Cx[t1U1...tcU(c)] onde t1,...,tc são fatores de escala. (1) Calcular C = RA para alguma matriz aleatória R. (2) Encontrar Q C[A] a proje¸cão de A sobre o espa¸co das linhas de C. (3) Chamada SVD em Q C[A], dado Q C[A] = U SVT. (4) Retornar: U ,S,V . Ref. [Achlioptas, 2001] [Achlioptas, 2007] [Frieze et al., 2004] [Drineas et al., 2003] [Sarlós, 2006] [Rokhlin et al., 2009] [Nguyen et al., 2009]

(32)

Tabela 2.3: Compara¸cão de complexidade de tempo e precisão dos métodos de aproxima-¸cão low-rank, tabela de [Menon & Elkan, 2011].

A lg or it mo P ar a me tr o # pas sa da s Co mpl ex idade Er ro k .k (2) F k .k (2) 2 Ti p o ifo rm sam p li n g h li o p tas, 2 0 01 ] fa tor d e a m os tr a ge m p 1 S S V D (mn (1 − p )) 4 z (z + p k A kF ) z = nk b 2 p 1 / 4 8 b p n/p Add No n u n ifor m sa m p li n g h li o p tas, 2 0 07 ] fa tor d e a m os tr a ge m p 1 S S V D (m (l og n ) 4 ) 4 z (z + p k A kF ) A = nk b 2 p 1 / 4 8 b p n/p Add D ri n eas ri n eas et al ., 2 00 6 ] er ro 2 D + mk 2 / 4 + k 3 / 6 k A kF 2 k A kF 2 Add S a rl o s [ S a rl ´o s, 20 0 6 ] er ro 2 D k / + (m + n )k 2 / 2 k A − Ak kF N/ A M ul ti er ty et a l. , 2 00 7 ] l 2 mnl og l + k ln log n + (m + n )k 2 N/ A δ k A − Ak k2 , δ = p 4 k (n − k ) + 1 − 1 M ul ti R an d o m PCA ok h li n et a l. , 20 0 9 ] i, l 2 (il + k )D + i 2 l 2 (m + n ) N/ A δ k A − Ak k 2 , δ = C m 1 / (4 i+2) − 1 , C constant e M ul ti Ng u y en u y en et al ., 2 00 9 ] er r o , pr obabibl idade β 2 mnl og d + (m + n )d 2 , d = O (k log m ) k A − Ak k F (1 + p 2 m/d ) k A − Ak k 2 M ul ti 15

(33)

2.5 M´

etodos de c´

alculo para SVD

Os métodos de cálculos para o SVD, no come¸co estes dependem do tipo das matrizes, quer sejam densas ou esparsas. Uma matriz é densa quando possui valores diferentes de zero atribu´ıdos a uma grande maioria dos seus elementos; por outro lado, uma matriz ´

e esparsa quando possui uma grande quantidade de elementos nulos, ou ausentes. Esta abstra¸cão tem aplica¸cões em problemas de engenharia, f´ısica, computa¸cão entre outras ´

areas. Uma matriz de tipo termo-documento é modelada e constru´ıda neste trabalho, onde a principal caracter´ıstica da matriz é que ela é esparsa, então merece uma aten¸cão e tratamento diferenciado, tanto no armazenamento quanto no processamento.

Além dos parâmetros convencionais para classifica¸cão de uma matriz, como o número de linhas, número de colunas, estrutura e posto, é comum observar a densidade para tratar matrizes esparsas. Analogamente ao conceito f´ısico, a densidade matricial é definida como a razão entre a quantidade de elementos não nulos é o tamanho total da matriz, como é mostrado na equa¸cão 2.5. Onde δ é a densidade, z é o número de elementos diferentes de zero, m é o número de linhas e n número de colunas. Este valor real é importante para caracterizar a quantidade de informa¸cões presente, bem como estimar a carga de processamento e o espa¸co em memória necessário para tratar tais objetos computacionalmente.

δ = z

m x n (2.5)

Quanto ao armazenamento otimizado de grandes matrizes, sejam densas ou esparsas, faz-se necess´ario um tratamento em mem´oria. Neste sentido, armazenar matrizes densas Amxn_{consome mem´}_{oria proporcional a (m)(n)(tamanho de elemento), aproximadamente.}

Por outro lado, as matrizes esparsas, têm muitos elementos nulos e não tem a necessi-dade expl´ıcita de serem armazenados. Neste caso, tais elementos fazem requerer por considerar também a densidade da matriz, sendo para a mesma matriz A proporcional a (m)(n)(tamanho de elemento) (δ). Estratégias comuns para armazenar matrizes esparsas envolvem o uso de listas vinculadas ou de tabelas de listas hash especiais.

(34)

ou de trabalho (volátil). A memória permanente caracteriza-se pelo acesso esporádico e sequencial do conjunto de dados, geralmente se traduz em discos r´ıgidos. Neste conceito é fundamental atingir a maior compacidade poss´ıvel, mesmo em sacrif´ıcio de parte do processamento, dado que neste ponto o espa¸co é fator restritivo da capacidade operacional. Visando otimizar essa abordagem algumas técnicas desenvolvidas operam somente sobre a massa útil de maneira diferenciada. Para armazenar apenas os elementos não nulos de uma matriz de forma simples, seria necessário conhecer apenas seus ´ındices (linha e coluna) além do seu valor. Nessa estrutura uma matriz esparsa poderia ser mapeada numa lista de tr´ıades gerando uma indexa¸cão linha-coluna mostrada em 2.6. Intuitivamente simples e genérica, esta estrutura permite particionamento com facilidade e oferece vantagens para tamanho e esparsidade elevados.

      0 0, 256 0 0 0 0, 48 0, 6 0 0       → (1, 2) : 0, 256 (2, 3) : 0, 48 (3, 1) : 0, 6 (2.6)

Visando otimizar o modelo baseado em linha-coluna, na implementa¸cão é poss´ıvel adotar tamanho fixo para os campos de ´ındice (linha e coluna) e também de valor. O armazenamento de largura fixa sequencial otimiza espa¸co ao dispensar cabe¸calhos e mar-ca¸cões especiais em cada elemento. Na demonstra¸cão 2.7 foram adotados ´ındices com largura dois e largura três para o valor. As desvantagens deste método apresenta dificul-dade para acesso aleatório aos elementos além de pouca robustez na leitura e durante o particionamento.       0 0, 256 0 0 0 0, 48 0, 6 0 0       →z }| { 120, 256 z230, 48}| { z310, 6}| { (2.7)

Evolutivamente métodos genéricos baseados na compressão de linhas [Golub & Van-Loan, 1996] e colunas [Hurlen et al., 2009] foram criados sem restri-¸cões estruturais armazenando apenas elementos necessários. O formato CCS, também conhecido como Harwell-Boeing, armazena valores não-nulos das colunas continuamente em um vetor dedicado utilizando outros dois vetores como apontadores. Analogamente

(35)

o formato CRS realiza compressão por linhas e equivale ao CCS da matriz transposta. Pela alta eficiência mostrada em 2.8 e tendo desvantagem apenas no requisito de endere¸camento indireto, o formato de Harwell-Boeing é amplamente utilizado.

      0 0, 256 0 0 0 0, 48 0, 6 0 0       → 1 2 3 4 → colptr 3 1 2 → rowind 0, 6 0, 256 0, 48 → value (2.8)

Algoritmos para realizar SVD em matrizes densas são aplicáveis a matrizes meno-res, sendo o tamanho limite pautado pela potência computacional dispon´ıvel. Porém, frequentemente em minera¸cão de dados as matrizes são muito grandes e/ou esparsas, ape-sar de suas decomposi¸cões manterem caracter´ısticas densas. Com requisitos de espa¸co e processamento proibitivos neste contexto, a utiliza¸cão de métodos convencionais não é razoável.

2.6 M´

etodos de agrupamento com SVD

Existe uma variedade de métodos de agrupamento, nosso objetivo neste trabalho não é medir qual método de agrupamento é o melhor. Mais sim mostrar que a metodologia desenvolvida é um método que pode ser utilizado sobre os relacionamentos encontrados em base de dados relacional em geral, considerando suas múltiplas entidades, encontrando informa¸cão semântica através de termos chave. Desta forma com o método anal´ıtico desenvolvido podem-se obter melhores resultados para a prospeçcão de padrões.

Apresentam-se mais detalhadamente o m´etodo de agrupamento por signal desenvolvida por Douglas [Douglas, 2008].

2.6.1 Agrupamento por signal

Uma vez calculado a SVD de uma matriz, métodos de agrupamento são usados para descobrir padrões. O Agrupamento por signal é um método de agrupamento baseado nos sinais dos vetores singulares. Por exemplo, na Figura 2.2, são ilustrados os dois primeiros vetores singulares esquerdos (matriz Uk) da matriz A da Figura 3.3. Usando o

(36)

informa¸cão que está indicada com a cor rosa, e as linhas 5, 6 e 7 são agrupadas em outro conjunto indicado com o cor azul claro. Estes são colocados em um aglomerado, por si só. Note-se que em k = 2 vetores singulares, pode-se ter até 2k _{clusters, cada linha de U}

k

tem k entradas, cada uma com dois poss´ıveis valores (positivo ou negativo), o algoritmo raramente apresenta um alto n´umero de clusters.

1.9167 1.0122 1.0492 5.6919 11.1615 17.2410 9.4715 SVD2 SVD1 10 -12 -10 -8 -6 2 0 2 4 6 8 -4 -2 0 12 14 16 18 1 2 3 4 5 6 7 5 6 7 1 ₂ 4 3 -4.4341 -5.7422 -10.8235 0.3680 1.4224 0.3791 0.1225 SVD1 SVD2

U=

k=2 k

+

-Figura 2.2: Agrupamento usando padr˜oes sinal dos dois primeiros vetores singulares m = 7 e k = 2, matriz como um conjunto de 7 pontos em 2 dimens˜oes, Umxk. Esta matriz U

representa os autores com rela¸c˜ao semˆantica aos eventos.

Na Figura 2.3 pode-se ilustrar o conjunto de elementos mais parecidos semanticamente com os Eventos. Observa-se que os eventos KDD, ACMGIS e CIKM estão em um mesmo cluster, conjuntamente com os autores 1, 2, 3 e 4. Assim, o segundo cluster também está conformado por 3 conferências AAAI, CVPR e ICML conjuntamente relacionadas com os autores 5,6 e 7. Os sinais dos vetores singulares da esquerda, ou as colunas de U , são agrupamentos para as linhas, enquanto que os sinais dos vetores singulares da direita, ou as colunas de V , podem ser usados para agrupar as colunas.

Este método de agrupamento é baseado nos sinais e finalmente faz a reordena¸cão dos vetores tanto por linhas quanto por colunas – olhar Algoritmo1. Na Figura 2.4 pode-se observar que a reordena¸cão por linhas e colunas são agrupados por grau de relevância, o agrupamento de cor mais claro é mais relevante.

(37)

SVD2 SVD1 10 -12 -10 -8 -6 2 0 2 4 6 8 -4 -2 0 12 14 16 18 1 2 3 4 5 6 7 5 6 7 1 ₂ 4 3 KDDACMGIS _CIKM AAAI CVPR ICML KDD CIKM ACMGIS CVPR AAAI ICML 1.1860 0.8659 10.8409 16.6537 12.1893 2.0322 SVD1 SVD2 V = k=2 k _-10.2806 -4.0877 0.8050 0.3407 1.2566 -6.8816 T 1.9167 1.0122 1.0492 5.6919 11.1615 17.2410 9.4715 -4.4341 -5.7422 -10.8235 0.3680 1.4224 0.3791 0.1225 SVD1 SVD2 U= k=2 k + + + + + + + + + + +

-+ + + + + + +

-

+

-

+

-Figura 2.3: Com k = 2 a matriz ´e A7x2: Matriz como um conjunto de 7 pontos em 2

Dimens˜oes. 7 6 5 1 4 3 2

KDD CIKM ACMGIS CVPR AAAI ICML

6 5 7 3 1 2 4

KDD CIKM ACMGIS CVPR AAAI ICML CIKM ACMGIS KDD CVPR ICML AAAI

6 5 7 3 1 2 4 Matriz A Reordenação por linhas Reordenação por linhas e colunas

Figura 2.4: Reordena¸c˜ao da matriz A.

2.6.2 Outros m´

etodos

Outro método de clustering desenvolvido por Castelli et al. [Castelli et al., 2003] é o CSVD. Este método é utilizado a fim de reduzir o número das dimensões dos ´ındices, extraem-se os vetores caracter´ısticos de imagens satélites para o processo de decomposi¸cão e são apresentados em grupos homogêneos dentro de um cluster com pontos em cada um, como é ilustrado na Figura 2.5. No ano seguinte Drineas et al. [Drineas et al.,] desenvolveram um método de clustering via SVD para grandes grafos. Fazem-se conjuntos agrupados de m pontos em espa¸co n-dimensional dentro de k agrupamentos com NP-hard. O método de agrupamento de Wei Song et al. [Song & Park, 2007] propõe um algoritmo genético para agrupar textos (text clustering) com SVD (SVD-based GA). Este método faz frente aos métodos convencionais de algoritmos genéticos em modelo de espa¸co vetorial. A Figura 2.6 ilustra o modelo que se usa para a representa¸cão de documentos de SVD.

(38)

Algoritmo 1 Algoritmo SVD Sign.

Entrada: Matriz A, rank k, conjunto de termos chave T = {t1, . . . , tm} e conjunto de

documentos D = {d1, . . . , dn}.

Sa´ıda: N´umero de cluster das linhas U e colunas VT_{, e reordena¸c˜}_{ao de estes.}

1: Calcular [Uk,Sk,Vk] ← svds(A,k) //Métodos de cálculo na se¸cão2.5.

2: p ← {0~ 1, . . . , 0m}

3: ~q ← {01, . . . , 0n}

4: Pij ← (Umk >= 0)//Atribuir 1 para valor com sinal ”+”e 0 para ”−”a Pij de Umk. 5: Qij ← (Vnk >= 0) //Atribuir 1 para valor com sinal ”+”e 0 para ”−”a Qij de Vnk. 6: para todo i ∈ k fa¸ca

7: para j ∈ m fa¸ca

8: ~p ← ~p + 2(i−1)_{∗ P [j, k − i + 1]}_{//Atribui um padr˜}_{ao-signal para cada linha de U}

k em ~p. 9: fim para

10: para j ∈ n fa¸ca

11: ~q ← ~q + 2(i−1)_{∗ Q[j, k − i + 1]}_{//Atribui um padr˜}_{ao-signal para cada coluna de V}

k em ~q. 12: fim para

13: fim para

14: [sorted row p, rowindex] ← sort(~p) //Ordenar ~p por padrão-signal de Umk 15: [sorted col q, colindex] ← sort(~q) //Ordenar ~q por padrão-signal de Vnk 16: nr ←length(unique(~p))//Número de cluster das linhas U

17: nc ←length(unique(~q))//N´umero de cluster das colunas VT

18: reordenar T e Uk com o ´ındice rowindex, e D e Vk com colindex.

19: return nr, nc,Uk,Vk

Figura 2.5: Ilustra¸c˜ao de clustering na redu¸c˜ao da dimensionalidade com CSVD.

Outro método de agrupamento é o SVD-Gaps, desenvolvido por Douglas [Douglas, 2008]. Usam-se os gaps como pontos de separa¸cão de grupos, dividindo os conjuntos de elementos, como é ilustrado na Figura 2.7.

2.7 Aplica¸

c˜

oes da SVD

A SVD é uma ferramenta usada principalmente para análise de dados, sendo aplicada também em aprendizado de máquina e minera¸cão de dados. Especificamente, nos campos de visualiza¸cão de dados, indexa¸cão de semântica latente, e filtragem colaborativa.

(39)

Figura 2.6: Ilustra¸c˜ao da representa¸c˜ao de documentos com SVD por Wei Song et al. [Song & Park, 2007].

Figura 2.7: Ilustra¸c˜ao de SVD-gaps clustering quando o conjunto de dados ´e projetado em um vetor singular por Douglas [Douglas, 2008].

2.8 Considera¸

c˜

oes Finais

Neste cap´ıtulo foram apresentadas os principais conceitos que envolvem a Decomposi¸cão de Valor Singular (SVD) sobre matrizes, informa¸cões que serão aplicadas neste projeto de pesquisa, considerando-se os métodos de Decomposi¸cão de Valor Singular e suas

(40)

apro-xima¸cões. Para o melhor entendimento destas técnicas são realizados alguns exemplos. Estes exemplos estão baseados especificamente na SVD.

(41)

(42)

Cap´ıtulo

3 An´

alise espectral de grafos

3.1 Considera¸

c˜

oes Iniciais

E

ste cap´ıtulo apresenta no¸cões sobre análise espectral de grafos, com o objetivo de auxiliar no entendimento de assuntos tratados posteriormente. São descri-tos também alguns trabalhos neste contexto. Seguidamente é feita a explica¸cão sobre a deriva¸cão de relacionamentos no contexto multi-relacional e a análise das propriedades do grafo. Finalmente, é apresentado exemplo de SVD no contexto da comunidade acadêmica baseado em grafo.

3.2 Trabalhos que analisam grafos usando SVD

Leting et al. [Wu et al., 2011] realiza a análise espectral sobre grafos denominada k-balanced Signed Graphs. Eles descobriram que esses grafos têm propriedades espec´ıficas. Em especial, eles descobriram que, quando um gráfico é assinada, as comunidades são mais claramente observadas, mesmo que as conexões entre eles tendam a aumentar. Este pode ser observado na Figura 3.1.

Maruhashi and Faloutsos [Maruhashi & Faloutsos, 2010] introduz EigenDiagnostics, um algoritmo que calcula e combina v´arias medidas espectrais para identificar

(43)

pa-(a) 2 separado, q=0.1 (b) p=0.1, q=0.1 (c) p=0.1, q=0.2

Figura 3.1: Ilustra¸c˜ao de coordenadas espectrais de unbalanced graphs generated de Synth-2 - Leting et al. [Wu et al., 2011].

drões em conjunto de dados representados em grafo. Em outro trabalho, Kim et al. [Kim et al., 2011] aplica a análise espectral sobre os dados de blog (ou blogosfera). Eles descobriram um conjunto de comunidades pendentes decorrentes das rela¸cões extra´ıdas de blogs e posts; também, eles foram capazes de caracterizar e interpretar as comunidades com base nos principais termos utilizados para compor os posts.

3.3 Deriva¸

c˜

ao de relacionamentos no contexto

multi-relacional

Como ilustra¸cão, considere um relacionamento Publica entre duas entidades Autor e Ar-tigo, segundo a semântica “Um autor publica vários artigos, os quais possuem múltiplos autores”. No modelo relacional, a instância de tal modelagem resulta em três rela¸cões: A = {pka}, B = {pkb} e R = {pka, pkb}. Estas três rela¸cões podem ser representadas

em um grafo bipartido G = {V = {W, X}, E}, W ∩ X = ∅, onde cada vértice w ∈ W corresponde a uma tupla de A e cada vértice x ∈ X corresponde a uma tupla de B, e tal que uma dada aresta e = {w, x} ∈ E se suas respectivas tuplas determinam uma tupla em R. Uma opera¸cão de interesse é a determina¸cão dos autores que publicaram artigos juntos, isto é, são co-autores, o que em álgebra relacional é dado por co-autoria ← Π(A.pka, R0.pka)((A ./A.pka=R.pka R) ./A.pka6=R0.pka∧R.pkb6=R0.pkb ρR(R

0_)). _{A defini¸c˜}_ao

desta consulta ilustra como a complexidade inerente ao modelo relacional faz com que relacionamentos de interesse, presentes nos dados, n˜ao sejam evidentes.

Alternativamente, o relacionamento de co-autoria poderia ser calculado a partir do grafo G = {V = {W, X}, E}. Para isso, poderia se definir um novo grafo H = {Y ⊆

(44)

W, F }, tal que f = {y, z} ∈ F ⇐⇒ ∃x ∈ X tal que e = {y, x} ∈ E, e e = {z, x} ∈ E. O grafo H corresponde ao crit´erio de relacionamento “conectados por caminho de tamanho 2”, subconjunto do produto cartesiano W × W . Dado o grafo G representado em matriz de adjacˆencia, o grafo H pode ser calculado a partir da matriz G2 _{= GG. De fato, o}

problema se generaliza para o crit´erio “conectados por caminho de tamanho n” a partir da potˆencia de matriz Gn = Gn−1G.

A ideia geral introduzida por este exemplo é a de que novos relacionamentos de interesse podem ser derivados a partir das rela¸cões do banco de dados usando-se processamento matricial. Outros exemplos semelhantes são: docentes que ministram as mesmas disciplinas em um curso de gradua¸cão, funcionários que trabalham em projetos comuns de uma empresa, ou mesmo o inverso do problema da co-autoria – quais artigos têm autores em comum? Esse exerc´ıcio semântico pode ser expandido para mais do que duas rela¸cões, e para outras cardinalidades.

3.4 An´

alise das propriedades do grafo

Um grafo também pode ser útil por meio da análise das propriedades básicas que o definem, o que também é uma possibilidade de desenvolvimento para o presente projeto. Um exem-plo desta possibilidade foi exexem-plorado no trabalho de Leskovec et al. [Leskovec et al., 2005], os quais descobriram que o número de arestas de grafos de diversos dom´ınios aumenta em ordem exponencial em fun¸cão do número de vértices seguindo uma lei de potência (power-law) ao longo do tempo, segundo a proporcionalidade:

e(t) ∝ n(t)a (3.1)

onde a ´e uma constante, geralmente no intervalo ]1,2].

Esta descoberta determina que o grau médio dos vértices de um grafo aumenta linear-mente ao longo do tempo - o que foi denominado processo de densifica¸cão. A densifica¸cão contrapõe-se à literatura anterior que predizia que os vértices teriam um grau médio cons-tante, prevendo que o número de arestas cresceria linearmente com o número de vértices.

(45)

A Figura3.2ilustra a densifica¸cão para dados da Digital Bibliography and Library Project entre 1993 e 2003. A inclina¸cão da reta fornece o parâmetro a da correspondente lei de potência.

Este tipo de análise pode ser usado para caracterizar o comportamento temporal dos dados [Asur et al., 2007]. Por exemplo, pode-se analisar bancos de dados relacionais de longa data, permitindo a previsão das necessidades futuras de espa¸co de armazenamento e processamento. Permite também a identifica¸cão de sub regiões do grafo que crescem segundo um parâmetro diferente do parâmetro a global, indicando subconjuntos de v´ er-tices de interesse – por exemplo, grupos mais colaborativos, trabalhos mais citados ou a emergência de novas linhas de pesquisa.

Número de arestas

Número de vértices

Figura 3.2: Gráfico tra¸cando a rela¸cão entre o número de vértices e o número de arestas para dados da DBLP entre 1993 e 2003.

Outros trabalhos focam na distribui¸cão estat´ıstica dos graus dos vértices do grafo [Abello et al., 2008] [Bi et al., 2001], demonstrando uma distribui¸cão do tipo cauda-longa (heavy-tailed); uma distribui¸cão bastante comum em dom´ınios como a economia, ciências sociais, geof´ısica, e ciência da computa¸cão. Esta distribui¸cão estabelece que um con-junto reduzido de elementos ocorre com alta frequência, ao passo que um conjunto grande (longo) de elementos ocorre com baixa frequência. Por exemplo, o tráfego de arquivos na Web [Crovella et al., 1998] apresenta um maior número de eventos para arquivos peque-nos, ao passo que arquivos de tamanho médio ou grande apresentam um menor número de eventos. Em grafos de diversos dom´ınios observa-se um comportamento semelhante: alguns vértices têm grau de baixa magnitude, ao passo que muitos têm grau de alta

(46)

magni-tude. Este padrão pode ajudar a explicar o comportamento da intera¸cão entre os vértices, por exemplo, quais autores são os mais atuantes (conectados) e qual o padrão em comum entre eles, quais eventos são mais citados e o quanto eles são representativos na produ¸cão global. Outras métricas de grafo apresentam distribui¸cões de interesse, como o diâmetro do grafo, o número de triângulos [Tsourakakis et al., 2009], o tamanho das componentes conectadas, e o PageRank [Kang et al., 2009], e métricas relacionadas a comunidades do grafo [Leskovec, 2009]. Cada uma destas métricas com implica¸cões de análise.

3.5 Exemplo de SVD no contexto da comunidade

acadˆ

emica baseado em grafo

No caso de A ser um grafo representado como uma matriz de adjacências calculada a partir de um banco de dados relacional, o principal resultado da SVD é o agrupamento dos m elementos que determinam as linhas da matriz A em fun¸cão de como estes se relacionam com os n elementos que determinam as colunas da matriz. No exemplo da co-autoria, esta aplica¸cão poderia identificar quais são as equipes mais atuantes de autores em fun¸cão de quais artigos eles publicam. Alternativamente, como no trabalho de Nan Du e Faloutsos [Du et al., 2010], a SVD pode ser aplicada ao longo do tempo para identificar, por exemplo, quais são os orientadores mais atuantes na institui¸cão e como eles têm se comportado. É interessante observar que os agrupamentos detectados via SVD não são da mesma natureza que o agrupamento categórico tradicionalmente de-senvolvido em minera¸cão de dados, mas sim um agrupamento baseado no relacionamento entre diferentes entidades, assim como no trabalho de Prakash et al. [Prakash et al., 2009].

No exemplo da Figura 3.3, é apresentado um grafo representando o relacionamento entre professores e eventos cient´ıficos. Neste exemplo, a SVD pode ser usada para iden-tificar quais são as principais áreas de pesquisa em fun¸cão da natureza dos eventos dos quais os professores participam.

A Figura 3.4 apresenta a decomposi¸c˜ao SVD para este exemplo. A fatora¸c˜ao produz um total de seis valores singulares e, segundo a heur´ıstica bastante aceita

(47)

Autores Eventos KDD CIKM ACMGIS CVPR AAAI ICML 2 3 5 1 4 7 5 1 6 15 7 2 9 4 8 6 2 9 13₁ 5 2 2₆ 2 1 2 3 4 5 6 7 1 2 3 4 5 6 7

KDD CIKM ACMGIS CVPR AAAI ICML

A

mxn 2 3 5 0 1 0 4 7 5 0 0 1 6 15 7 2 0 0 9 4 8 0 0 0 0 0 0 6 2 9 1 0 0 3 1 5 0 2 0 2 6 2 Autores Eventos

Figura 3.3: Grafo exemplo - relacionamento “professor participa de evento” muitos-para-muitos ente instâncias de professores e instâncias de eventos. Os pesos das arestas indicam quantas participa¸cões de um dado professor em um dado evento.

0.4624 0.7103 0.5199 0.0867 0.0369 0.0506 0.0614 0.0260 0.0958 -0.5246 -0.3116 -0.7837 0.5619 -0.6729 0.4229 -0.0564 -0.1448 0.1687 0.0491 -0.1373 0.1257 -0.1324 0.9346 -0.2683 -0.6761 -0.0637 0.7019 -0.1480 -0.0467 0.1484 0.0849 0.1382 -0.1821 -0.8214 0.0706 0.5107 0.2428 0.0280 0.1447 0.2416 0.8505 -0.2411 0.4040 0.0093 -0.0242 -0.0782 0.2249 0.8562 0.7353 0.0289 -0.5216 -0.2223 -0.1750 -0.3163 0.4760 0.1084 0.7738 0.1737 -0.3209 -0.1318 0.0447 -0.8250 0.1199 -0.2591 0.1569 -0.1799 0.0432 -0.4377 0.1469 -0.1460 -0.1882 0.2312 0.0817 -0.3380 -0.2679 0.8761 -0.1802 0.0741 23.4465 0 0 0 0 0 0 13.1187 0 0 0 0 0 0 7.4292 0 0 0 0 0 0 5.1723 0 0 0 0 0 0 2.2571 0 0 0 0 0 0 1.0596 2 3 5 0 1 0 4 7 5 0 0 1 6 15 7 2 0 0 9 4 8 0 0 0 0 0 0 6 2 9 1 0 0 3 1 5 0 2 0 2 6 2

=

A

U

S

V

T

mxn

mxr

rxr

rxn

Autores x Eventos

Figura 3.4: Decomposi¸c˜ao por valor singular correspondente ao grafo da Figura 3.3.

de Fukunaga [Fukunaga, 1990], é suficiente que se mantenha um número de valores singulares que totalize entre 80% e 90% da energia dada pelo somatório dos quadrados dos valores singulares. No exemplo, isto corresponde aos dois primeiros valores, os quais representam 89% da energia. Ao se interpretar este resultado, percebe-se que os dados definem duas áreas principais de pesquisas, uma relacionada à minera¸cão de dados e outra relacionada à inteligência artificial. A análise informa ainda que estas duas áreas apresentam intera¸cão correspondente ao res´ıduo de 11% da energia dos

(48)

valores singulares. Embora a SVD seja computacionalmente custosa – O(nm2), já existem métodos para seu cálculo incremental permitindo que seja aplicada em bases de dados dinâmicas a custo reduzido O(nm) [Manjunath et al., 1995]. Outras abordagens exploram a generaliza¸cão por traz da SVD em busca de melhor desempenho, assim como a decomposi¸cão CUR [Mahoneya & Drineas, 2009] e a sua varia¸cão Compact Matrix Decomposition [Sun et al., 2008].

3.6 Considera¸

c˜

oes Finais

Neste cap´ıtulo foram apresentados no¸cões sobre a análise espectral de grafos, em seguida trabalhos que analisam grafos usando SVD, a deriva¸cão de relacionamentos no contexto multi-relacional e um exemplo de SVD baseado em grafo.

(49)

(50)

Cap´ıtulo

4 T´

ecnicas de processamento de texto

4.1 Considera¸

c˜

oes Iniciais

U

ma grande quantidade de informa¸cões dispon´ıveis está em formato digital dispersa em diferentes tipos de documentos; sejam estes estruturados, semi-estruturados ou não estruturados. Assim, existe um interesse de extrair conhecimento desse grande volume de dados. Esse é o objetivo principal do processo de Minera¸cão de Textos. Neste cap´ıtulo são apresentadas as principais técnicas sobre o pré-processamento de textos, seguidamente a aplica¸cão de métodos estat´ısticos.

4.2 Tratamento com textos

Cada t´ıtulo de um artigo possui termos, os quais são extra´ıdos usando técnicas de minera-¸cão de textos. Técnicas que são muito utilizadas em processamento de linguagem natural envolvendo técnicas com opera¸cões em textos. Neste sentido, para a extra¸cão de termos iniciar-se-á com a “tokeniza¸cão” seguido da elimina¸cão de “stopwords” e “stemming”.

(51)

4.2.1 Tokeniza¸

c˜

ao

A tokeniza¸cão, também conhecida como splitting de palavras, é considerada por mui-tos autores como o primeiro passo para a prepara¸cão de textos [Webster & Kit, 1992] [Fox, 1992] [Grefenstette & Tapanainen, 1994] [Guo, 1997] [Barcala et al., 2002], que ba-sicamente consiste em identificar e separar os textos em tokens, que por sua vez, são palavras dos textos, mantidas em um vetor de palavras tendo como base um conjunto de regras. Neste processo é importante considerar o tratamento de sinais de pontua¸cão, re-mo¸cão de caracteres especiais e de números e a padroniza¸cão de maiúsculas a minúsculas. O objetivo com este procedimento é deixar o texto o mais limpo poss´ıvel. Um exemplo de tokeniza¸cão em um t´ıtulo é o seguinte:

A 3.4W digital-in class-D audio amplifier.

[A] [3] [.] [4] [W] [digital-in] [class-D] [audio] [amplifier] [.]

Obtendo-se como resultado uma sequência de palavras separadas por delimitadores. Nos t´ıtulos de artigos este procedimento também é importante, haja visto que muito dos t´ıtulos tem este problema, por exemplo, no t´ıtulo número 371479, pode-se notar que tem s´ımbolos que devem ser removidos como se ilustra na Figura4.1.

Figura 4.1: Exemplo de t´ıtulos de artigos que precisam do processo de tokeniza¸c˜ao para a limpeza dos textos.

O conjunto de regras considerados em primeira instância é o seguinte: • Remo¸cão de sinais de pontua¸cão como: [.], [,], [:], [’], [!], [?], [...], etc. • Remo¸cão de s´ımbolos: [#], [\], [α], [β], [γ], [δ], [], [θ], [≈],[ψ], etc. • Remo¸cão de números: [0], [1], [2],..., [9].

• Remo¸c˜ao de s´ımbolos num´ericos (operadores): [+], [−], [∗], [÷], [∪], [∩], [∧], [±], [q], etc.

(52)

• O caractere “-”(h´ıfen) representa um sinal de pontua¸cão, que esta associada a uma infinidade de ocorrências lingu´ısticas. Neste caso, ele é mantido, pois lê-se em meio a palavras compostas: Low-Power, Real-Time, Illumination-Balance, field-sequential, Appearance-Based, etc.; elementos sufixados como: anti-Spam, micro-Spatial, micro-Enterprise, macro-Scripts, auto-Tunings, auto-Balancing, contra-Precontinuous, etc.; com palavras com significado de anglicismo, como, por exemplo, e-Mail, e-Commerce, e-Bussines, on-Line, Business-to-Business, e-Procurement, etc.; ou em números compostos, tais como, twenty-five, sixty-four, ninety-two, etc. • Conversão de maiúsculas a minúsculas.

4.2.2 Elimina¸

c˜

ao de stopwords

Os stopwords são termos que aparecem com grande frequência em documentos, neste caso no conjunto dos t´ıtulos dos artigos, mas eles não apresentam conteúdo semântico que possa ajudar a recupera¸cão dos mesmos. São denominados como palavras irrelevantes, e não podem ser considerados como termos chave (keywords), como corroboram alguns autores [Lo et al., 2005][Blanchard, 2007][Dragut et al., 2009]. Este conjunto de palavras é armazenado em um stoplist, que visa diminuir o volume do texto, ao não considerar as palavras irrelevantes. Desta forma evita-se que elas sejam selecionadas como parte dos experimentos para a análise semântica. Por exemplo no seguinte t´ıtulo de artigo:

Simulation Environment for the Optimization of the Data Retrieval Capabilities of an Agent Based System in a Healthcare Setting.

As palavras for, the, of, an, in, a s˜ao consideradas como palavras irrelevantes ou stopwords.

A elimina¸c˜ao de stopwords consiste em remover os artigos (a, an, in, the, etc.), pre-posi¸c˜oes (about, above, across, after, against, along, among, around, at, before, behind, below, etc), operadores booleanos (and, or, not) e palavras bastante frequentes mas ir-relevantes. Usou-se neste trabalho uma stoplist da l´ıngua inglesa de 600 palavras mais comuns. 1

1_WWW: