• Nenhum resultado encontrado

Universidade Federal de Santa Catarina UFSC. Data mining na Web 2.0

N/A
N/A
Protected

Academic year: 2021

Share "Universidade Federal de Santa Catarina UFSC. Data mining na Web 2.0"

Copied!
12
0
0

Texto

(1)

Universidade Federal de Santa Catarina ­

UFSC

   

  Centro Tecnológico ­ CTC

Departamento de Informática e Estatística ­ INE

Seminário de Data Mining

Data mining na Web 2.0

Disciplina: Data Mining ­ INE5644 Professor: Luis Otávio Campos Alvares Alunos: Alexandre Spengler     Danielly Sorato       Lucas Just Meller       Maurício Branco

(2)

Data mining na Web 2.0

1. Introdução

A necessidade de evolução de técnicas na área da informática é gerada por        muitos fatores, na perspectiva do eixo­temático deste trabalho, o fator predominante é a        inequação das antigas técnicas utilizadas para mineiração de dados na web tendo em        vista a evolução da mesma.

Na chamada “Web 1.0”, as características predominantes eram sites estáticos,        não interativos e com aplicativos fechados, porém, com o       avanço no conjunto de técnicas        para design e execução de páginas da Web, geração de grandes volumes de dados em        curto período de tempo, é apresentado um novo conceito de Web, proposto por Tim        O’Reilly para designar uma segunda geração de comunidades e serviços baseados na        plataforma Web, que foi denominada Web 2.0.

Não obstante, com esta nova fase da Web, surgiram problemas e desafios        relacionados à redes sociais, agregação fácil e rápida de conteúdo de forma não        significativa, tipos dos dados usados, prejudicando a maneira de filtrar o material        relevante do irrelevante.

Em seu desenvolvimento, esse trabalho irá abordar aspectos de data mining, tais        como dificuldades apresentadas, processos, aplicações e novos algoritmos em relação a        essa evolução da Web.

(3)

2. Tipo de mineração

2.1. Mineração de Conteúdo

A mineração de conteúdo é o processo de extração de conhecimento do conteúdo        de documentos, dados e serviços encontrados na Web. O foco da mineração Web são os        dados de texto e hipertexto, são os formatos de dados que constituem grande parte da        Web.

Para extração de informações úteis em documentos de texto não estruturados é        utilizada a Mineração de Textos, também conhecida como Descoberta de Conhecimento        em Textos (Knowledge Discovered in Texts ­ KDT). Pode­se definir KDT como sendo o        processo de extrair padrões ou conhecimento, interessantes e não triviais, a partir de        documentos textuais.

2.2. Mineração de estrutura

Mineração de estrutura é o processo de descoberta de conhecimento a partir da        organização da Web, em especial através da ligação entre documentos na Web. A Web        é como um grafo orientado, onde os nós representam páginas, e as arestas entre pares        de nós representam vínculos entre as páginas.

Esta categoria envolve a estrutura que há por trás da interligação entre os        documentos da Web. O que liga esses documentos são os vínculos de hipertexto (LINKS),        os quais são os principais objetos de estudo nesta categoria.

Alguns algoritmos foram propostos para a modelagem da topologia da Web tais        como o HITS (“Hyperlinked Induced Topic Search”) e o PageRank. Esses modelos são        aplicados principalmente para calcular a qualidade ou relevância das páginas da Web.        Uma das regras utilizadas é que quanto mais páginas estiverem apontando para uma        determinada página, mais relevante ela será. O pageRank é famoso por causa do        google.

2.3. Mineração de uso

A mineração de uso da Web focaliza­se em técnicas que possam prever o        comportamento do usuário enquanto ele interage com a Web [Kosala, 2000]. O        comportamento do usuário é estudado, através de logs de servidores web, logs de        browsers, perfis de usuário, cookies e qualquer outro dado gerado pela interação do        usuário, na busca de informações sobre a interação com a Web.

(4)

As aplicações da mineração de uso da Web podem ser classificadas em duas        categorias principais: (KOSALA & BLOCKEEL, 2000):

• Aprendizado de perfil de usuário ou modelagem em interfaces adaptativas        (personalização): Utiliza técnicas capazes de detectar suas necessidades e preferências,        com possibilidade de personalização das páginas.

• Aprendizado de padrões de navegação de usuário: técnicas que os permitam        promover melhorias no conteúdo e ergonomia, baseadas, por exemplo, no        comportamento de seus usuários.

(5)

3. As fases do modelo de mineração na WEB

O modelo de mineração na WEB é realizado em quatro diferentes fases: 1. Obtenção dos dados 2. Pré­Mineração 3. Mineração 4. Pós Mineração 3.1. Obtenção dos dados

Esta é a primeira fase do modelo, fase na qual ocorre a modelagem e estruturação        da base de dados, que será a base para o modelo. Decide­se nesta fase, a metodologia        de obtenção dos dados, qual a fonte de obtenção, o tipo dos dados, além de variáveis        que serão utilizadas para compor a análise, o raio de abrangência do projeto e a estrutura        do banco de dados.

3.2. Pré­Mineração

É importante que os dados incorporados às bases de dados, sejam de alta        consistência e confiabilidade. Para que isso aconteça, rotinas são criadas para que        executar essa incorporação, promovendo a validação dos resultados das análises        estatísticas.

A partir dos critérios definidos pelo analista e os dados específicados na primeira        etapa, dá­se a entrada dos registros de dados. Um exemplo de registro, ocorre na        mineração por uso, em que os registros de entrada são os dados de logs armazenados        no servidor Web. Na mineração por conteúdo, os registros se dão pelos textos que        compõem as páginas HTML, como diz o nome, seu conteúdo.

3.3. Mineração

Para a terceira etapa deste modelo, aplica­se o algoritmo para extração de regras        de associação sobre os dados registrados pré selecionados, por exemplo, os logs de um        servidor Web. Medidas objetivas de interesse para regras de associação também podem        ser criadas, como grau de confiança mínimo e suporte mínimo.

Utilizando as bases de dados operacionais, é recomendado que se crie uma Data        Warehouse para auxiliar na realização da mineração de dados, pois torna­se mais fácil e        simples a análise de grandes quantidades de dados. Todos os dados de múltiplas fontes        são integrados nessa etapa, mas mantendo a seguridade da qualidade dos dados que       

(6)

serão minerados. A etapa de mineração é de extrema importância para validação dos        dados que serão manipulados pelo Data Mining.

3.4. Pós Mineração

A fase corrente, é a responsável por tratar as regras extraídas na etapa de        mineração antes que sejam mostradas ao analista, para que o analista tenha a        interpretação mais facilitada e produtiva.

Critérios definidos pelo analista são levados em consideração para realizar esse        processamento, além de informações extraídas a partir da estrutura do site.

As técnicas de Data Mining são aplicadas nessa etapa, tais como a otimização e        estatística, com o objetivo de obter informações como padrões não percebidos em outras        análises menos aprofundadas. Na pós mineração, é importante a validação dos        resultados obtidos através de análises complementares, pois além de conhecer a        elasticidade do conteúdo, pode­se obter o perfil dos consumidos das páginas na Web,        traçando também as concorrências existentes entres as demais páginas Web.

(7)

4. Análise de redes

A partir dos conceitos básicos sobre redes, sabe­se que uma rede corresponde a        um conjunto de vértices e arestas, e a relação entre vértices é representada por arestas.        A teoria de redes estuda esses grafos formados por esse conjunto de vértices e arestas,        estudando aspectos como sua simetria(ou assimetria).

Trazendo esses conceitos para o contexto presente neste trabalho, a análise de        redes é aplicada, por exemplo, para mapear os relacionamentos entre usuários numa        rede social, examinando a estrutura das relações entre entidades sociais(geralmente são        pessoas, mas também podem ser grupos, organizações, nações, websites, publicações        acadêmicas, etc).

Os principais aspectos que podem destacados em uma rede social são a grande       

quantidade de informações envolvidas, degradação do aspecto semântico quando estas        são interpretadas isoladamente, problemas quanto ao tratamento das informações e        demandas por análises bem estruturadas.

4.1. Social Network Analysis(SNA)

O Social Network Analysis(SNA) é um estudo sobre a relação entre usuários,        grupos ou instituições sociais, que visa formular algoritmos sobre estruturas de        rede(normalmente capturadas em grafo).

Redes sociais como o Facebook usam elementos básicos do SNA para        recomendações(de páginas, amigos, etc), que geram mais informações para facilitar o        processo de mineração e a partir de mineração dos dados são identificadas possíveis        preferências. De modo geral, o SNA testa hipóteses sobre o comportamento online entre        os usuários.

(8)

5. Algoritmos voltados a redes sociais

Como foi apontado no tópico anterior, a representação de redes sociais foi        bastante influenciada pela teoria grafos, nos quais o conjunto de vértices correspondem        aos "atores" (pessoas, empresas, agentes sociais) e o conjunto de arestas        correspondem as "ligações" ( relacionamentos, associações, links).

Os algoritmos aplicados em redes sociais continuam em evolução, devido a sua        alta complexidade e necessidade de rapidez em sua aplicação, um exemplo de algorimo        que precisa de aperfeiçoamentos e simplificações é o algoritmo da clique.

O número de clique de um grafo é igual à cardinalidade da maior clique do grafo G        = (V, E) e é obtido pela resolução do problema NP­difícil da máxima clique, o qual possui        alta complexidade.

A estrutura de clique, onde deve existir uma aresta para cada par de vértices,        apresenta muitas restrições na modelação da vida real. Deste modo, abordagens        alternativas têm sido sugeridas, como fim de relaxar o conceito de clique, como o        k­clique, k­clã/k­club e k­plex.

Para a relaxação correspondente ao k­clique, o qual é um modelo baseado em        distância onde k é o comprimento máximo do caminho entre cada par de vértices, temos        que uma k­clique é o subconjunto de C tal que para cada i e j pertencentes a C, a        distância(i, j) é menor ou igual a k, logo uma 1­clique seria idêntica a uma clique, pois a        distância entre os vértices é igual a um e uma 2­clique é o subgrafo completo maximal        com um caminho de uma ou duas arestas, caminho cujo seria equivalente ao “amigo do        amigo” em uma rede social.

As medidas utilizadas na análise de Redes Complexas e “Graph Mining” são        baseadas em procedimentos de baixa complexidade computacional, como o diâmetro do        grafo, o grau de distribuição dos nós e a verificação da conectividade, subestimando o        conhecimento da estrutura das componentes do grafo, então para o exemplo citado,        visando encontrar a cobertura mínima de k­cliques é proposto um algoritmo de duas        fases, no qual em primeiro lugar, todas as k­cliques maximais do grafo são geradas,        depois o subconjunto mínimo do k­cliques é escolhido para cobrir todos os vértices do        grafo.

5.1. O algoritmo de duas fases

O algoritmo de duas fases:

Procedimento 1: Algoritmo de duas fases para encontrar a cobertura de k­cliques ● Entrada: distância k e grafo G

(9)

● Saída: cobertura de k­cliques 1. Encontrar todas as k­clique maximais do grafo G; 1.1. Transformação do grafo num k­grafo; 1.2. Aplicar o algoritmo da clique máxima; 2. Encontre a cobertura mínima de G com k­cliques; 2.1. Aplicar o algoritmo da cobertura de conjuntos; 3.1. Encontrar as k­cliques maximais no grafo G; Grafo Transformação:

É um grafo denominado k­G(V, E), que corresponde transformação do grafo G(V,        E) num grafo, tal que para cada i e j pertencentes à V, a distância d(i,j)≤ k. Para a criação        do grafo k­G(V,E) deve­se utilizar o Algoritmo Floyd, que considera todos os caminhos        mais curtos num grafo, e, em seguida, para cada aresta inferior ou igual a k, será criada        uma nova aresta no novo grafo. Procedimento 2: Transformação do Grafo ● Entrada: k, M[n,n] matriz de adjacência do grafo G ● Saída: D[n,n] a matriz com k­distâncias do grafo G (ou k­Grafo) 1. D=M; 2. Para cada (h,i,j) D[i,j] = min(D[i,j], D[i,h]+D[h,j]); 3. Para cada (i,j) se (D[i,j] <=k) D[i,j]=1 senãoD[i,j]=0; 4.Retornar D; Algoritmo da Clique máxima:

O problema da Clique Máxima é um problema NP­difícil que visa encontrar o maior        subgrafo completo em um determinado grafo, tendo em vista sua complexidade, a        heurística proposta para resolver o problema é encontrar um limite inferior para o        problema de maximização.

Sabendo que encontrar uma clique maximal num k­grafo é o mesmo que encontrar        uma k­clique maximal num grafo, para gerar um grande conjunto de k­cliques maximais é        usada a Heurística Tabu para resolver o Problema Clique Máxima.

Procedimento 3: Heurística Tabu para o Problema da Clique Máxima

● Entrada: k­Grafo, S

(10)

1. iniciar T; S*=S; 2. enquanto não for condição de fim 2.1.   se(N+(S)\T não é nulo) escolha a melhor S’ 2.2.   senão se(N0(S)\T não é nulo) escolha a melhor S’; atualizar T 2.2.1.     senão escolha a melhor S’ em N–(S); atualizar T 2.3.   atualizar S = S’ 2.4.   se (|S|>|S*|) S*=S; 3. fim ciclo enquanto; 4. retornar S*;

(11)

6. Conclusão

Com a evolução da Web para a geração chamada Web 2.0, as grandes        quantidades de dados fornecidos geram necessidades de criar novas medidas para        melhor compreender a estrutura das redes, o modo como os seus componentes estão        organizados e o modo como evoluem ao longo do tempo. Essas grandes quantidades de        informações, assim como as dificuldades referentes aos tipos de dados trabalhados        tornam necessário que os métodos de mineiração usados evoluam, caso contrário,        seriam inadequados à nova geração da Web.

(12)

7. Referências

● Key differences between Web 1.0 and Web 2.0 ­ by Graham Cormode and Balachander Krishnamurthy: http://firstmonday.org/ojs/index.php/fm/article/view/2125/1972 ● Um Algoritmo para Encontrar a Cobertura de k­Cliques em Redes Sociais: https://repositorio.uac.pt/bitstream/10400.3/2154/1/caviqueIO09%20pp8.pdf ● Ferramentas WebMining: http://www.slideshare.net/SamuelRibeiro12/web­mining­17358876 ● Wikipédia ­ WebMining:  http://en.wikipedia.org/wiki/Web_mining

Referências

Documentos relacionados

58-59, jan/abr.1999.(apud Limongi-França) Qualidade de vida no Trabalho – QVT: Conceitos e práticas nas empresas da sociedade pós-industrial. Linking employee perceptions of

Quino (figura 115): exsudado fenólico vermelho escuro comumente encontrado na casca ou nas madeiras de eucalipto. A forma mais encontrada é a anelar, com cerca de 2-3mm de

Foi observada taxa de permeação cutânea superior da rutina em etossomas em comparação com a rutina livre, assim, etossomas contendo rutina tornam-se um possível ingrediente ativo

Foi observado que as resinas compostas submetidas à escovação com os dentifrícios Máxima Proteção Anticáries, Colgate Pró Alívio e Sensodyne Repair &amp;

Este questionário foi disponibilizado para os participantes de forma on line, pela plataforma do google (google forms). Pode-se verificar que grande parte

Em específico, na obra literária A Hora da Estrela, de Clarice Lispector, percebe- se tal relação interdisciplinar entre a verbalização e os comportamentos esquizoides de

Este trabalho tem como objetivo principal realizar um estudo de caso analisando os principais procedimentos de projeto, instalação e

Foi proposto pelo docente uma simulação em um restaurante durante o jantar, cerca de quatro alunos participaram do momento, e um dos participantes simulou o