• Nenhum resultado encontrado

Web Crawlers Open Source. Heitor de Souza Ganzeli Analista de Projetos do nic.br

N/A
N/A
Protected

Academic year: 2021

Share "Web Crawlers Open Source. Heitor de Souza Ganzeli Analista de Projetos do nic.br"

Copied!
47
0
0

Texto

(1)

Web Crawlers Open Source

(2)

O Comitê Gestor da Internet no Brasil

(CGI.br) foi criado pela Portaria Interministerial

nº 147, de 31 de maio de 1995, alterada pelo

Decreto Presidencial nº 4.829,

de 3 de setembro de 2003,

para coordenar e integrar todas as iniciativas de

serviços Internet no país, promovendo a qualidade

técnica, a inovação e a disseminação dos

(3)

Nomes de domínio .br Números IP Segurança na Internet brasileira Indicadores sobre uso das TICs Infraestrutura PTTs IPv6 SIMET = medição de qualidade Padrões Web

O NIC.br é uma instituição sem fins de lucro, que funciona como braço executivo do CGI.br

(4)

In tro d u ção Cr aw ler s lac io nado s

• INTRODUÇÃO

• CRAWLERS

• PROJETOS RELACIONADOS

Agenda

(5)

In tro d u ção Cr aw ler s F u n cio n am ento lac io nado s

Introdução

(6)

In tro d u ção Cr aw ler s F u n cio n am ento lac io nado s

Projeto TIC Web

• Iniciado em 2009

• Publicação de dados

do domínio .gov.br

em 2010

http://www.ceptro.br/

CEPTRO/MenuCEP

TROSPCensoWeb

(7)

In tro d u ção Cr aw ler s F u n cio n am ento lac io nado s

O que é um Web crawler

• Programa que navega de forma

automática e ordenada a Web

• Alguns sinônimos:

• Spider

• Bots

• Robots

(8)

In tro d u ção Cr aw ler s F u n cio n am ento lac io nado s

Aplicações

• Buscadores

Web Crawlers Indexador Servidores Broker Interface de usuário Índice Ranking

(9)

In tro d u ção Cr aw ler s F u n cio n am ento lac io nado s

Aplicações

• Buscadores

Web Crawlers Indexador Servidores Broker Interface de usuário Índice Ranking

(10)

In tro d u ção Cr aw ler s F u n cio n am ento lac io nado s

Como Funciona

Lista

Inicial

Download

Extração

de links

Seleção

(11)

In tro d u ção Cr aw ler s F u n cio n am ento lac io nado s

Limitações

senha

(12)

In tro d u ção Cr aw ler s F u n cio n am ento lac io nado s

Desafios

• Tamanho

• Obsolescência

• Qualidade

• Uso eficiente de recursos

• Controle Distribuído

(13)

In tro d u ção Cr aw ler s F u n cio n am ento lac io nado s

Alguns exemplos de web crawler Open source

• Wire

• Heritrix

• Wget

• Nutch

(14)

In tro d u ção Cr aw ler s lac io nado s

Crawlers

WIRE

(15)

In tro d u ção Cr aw ler s lac io nado s

Características

• Desenvolvido pelo CWR

• Cunho acadêmico

• Escalável

• C/C++

• Altamente configurável

(16)

In tro d u ção Cr aw ler s lac io nado s

Arquitetura

Base

de

dados

Manager Harvester Gatherer Seeder

(17)

In tro d u ção Cr aw ler s lac io nado s

Exemplo de configuração

• Arquivo XML

• Configuração centralizada

(18)

In tro d u ção Cr aw ler s lac io nado s

Exemplo de execução

export

WIRE_CONF=/media/drive2/teste/sample.conf

wire-bot-reset

wire-bot-seeder --start

/media/drive2/teste/list

wire-bot-run 5

(19)

In tro d u ção Cr aw ler s lac io nado s

Exemplo de execução

(20)

In tro d u ção Cr aw ler s Projetos Re lac io nado s

WIRE-NIC

• Algumas correções:

• Melhora do

parsening

de páginas

• Suporte a

HTTP1.1

• Melhora na identificação do

encoding

das

páginas

• Correção de alguns bugs de execução

(21)

In tro d u ção Cr aw ler s Projetos Re lac io nado s

Problemas

• Relativamente lento

• Storage único

• Difícil de ser testado

• Arquitetura unithead

• Antigo

(22)

In tro d u ção Cr aw ler s lac io nado s

Crawlers

GNU WGET

(23)

In tro d u ção Cr aw ler s Projetos Re lac io nado s

Características

• Simples

• Linha de comando

• Download sequencial

(24)

In tro d u ção Cr aw ler s lac io nado s

Controles de básicos

• Limite de profundidade

• Lista de domínios

• Tipos de arquivos baixados

• Tempo entre downloads

(25)

In tro d u ção Cr aw ler s lac io nado s

Alguns exemplos

• Baixar site:

wget –r www.nic.br

(26)

In tro d u ção Cr aw ler s lac io nado s

Alguns exemplos

• Baixar site:

wget –r www.nic.br

(27)

In tro d u ção Cr aw ler s lac io nado s

Alguns exemplos

• Adicionar delay:

wget –r –w 2 www.nic.br

(28)

In tro d u ção Cr aw ler s lac io nado s

Alguns exemplos

• Baixar apenas páginas:

wget –r –w 2 –A

(29)

In tro d u ção Cr aw ler s lac io nado s

Alguns exemplos

(30)

In tro d u ção Cr aw ler s lac io nado s

Alguns exemplos

(31)

In tro d u ção Cr aw ler s lac io nado s

Alguns exemplos

• Baixar apenas páginas:

wget -r -w 2 -R

(32)

In tro d u ção Cr aw ler s lac io nado s

Crawlers

HERITRIX

(33)

In tro d u ção Cr aw ler s lac io nado s

Características

• Internet Archive

• Java

• Componentes intercambiáveis

• Scopo

• Frontier – Gerenciador

• Process Chains

(34)

In tro d u ção Cr aw ler s lac io nado s Controlador

Arquitetura

Interface Web Requisição de Crawling

Frontier

Process Chain Nova URI

Adiciona novas URIs Conclui URI URIs já incluídas URIs a serem executadas

(35)

In tro d u ção Cr aw ler s lac io nado s

Problemas

• Difícil de ser configurado

• Não se recupera bem de falhas

(36)

In tro d u ção Cr aw ler s lac io nado s

Exemplo de execução

(37)

In tro d u ção Cr aw ler s lac io nado s

Crawlers

APACHE NUTCH

(38)

In tro d u ção Cr aw ler s lac io nado s

Características

• Apache foundation

• Parte do projeto Apache Solr

• Alta performace em clusters com hadoop

• Robusto

(39)

In tro d u ção Cr aw ler s lac io nado s

Arquitetura

Injetor Gerador Buscador

Base de Crawling repositório Filtros, normalizadores indexador parser Atualiza Base de links Inversot de links

(40)

In tro d u ção Cr aw ler s lac io nado s

Exemplos de Execução

(41)

In tro d u ção Cr aw ler s lac io nado s

Projetos Relacionados

(42)

In tro d u ção Cr aw ler s Projetos Re lac io nado s

O ASA

http://asa.nic.br

(43)

In tro d u ção Cr aw ler s lac io nado s

Projeto Top Sites

• http://labs.ceptro.br/topsites

• Estatísticas sobre a lista dos top 1 milhão

(44)

In tro d u ção Cr aw ler s lac io nado s

Projeto BR Sites

• http://labs.ceptro.br/brsites

• Estatísticas sobre lista do .br baseada em

(45)

In tro d u ção Cr aw ler s lac io nado s

TIC Web

• Análise periódica de domínios específicos

(46)

In tro d u ção Cr aw ler s Projetos Re lac io nado s In tro d u ção Mot iv ão Fu ncio name nto ma

Obrigado !

Perguntas?

Contatos:

web@ceptro.br

moreiras@nic.br

heitor@nic.br

(47)

In tro d u ção Cr aw ler s Projetos Re lac io nado s In tro d u ção Mot iv ão Fu ncio name nto ma

referências

http://labs.ceptro.br/topsites http://labs.ceptro.br/brsiteshttp://asa.nic.br

http://sf.net/projects/wire-nic

– https://webarchive.jira.com/wiki/display/Heritrix/Heritrix – http://nutch.apache.org/ – http://www.gnu.org/software/wget/manual/wget.html – https://webarchive.jira.com/wiki/download/attachments/5441/Mohr-et-al-2004.pdf

Distributed WR tutorial – Ricardo Baeza-yates

– http://2010.berlinbuzzwords.de/sites/2010.berlinbuzzwords.de/files/bia

lecki_bbuzz2010.pdf

Referências

Documentos relacionados

c) Dano: ofensa que afete a saúde e/ou património das Pessoas Seguras e/ou de Terceiros. d) Litígio: conflito entre as Pessoas Seguras e Terceiros, decorrente de

Consultar a Secção 11 para obter informações pormenorizadas sobre sintomas e efeitos na saúde.. Classificação de acordo com o Regulamento (CE)

O canabidiol é um composto presente na planta Cannabis sativa, que promove diversos benefícios à saúde humana, como por exemplo sobre as doenças neurológicas como epilepsia,

Andava o senhor Vento pé ante pé na vinha quando avistou um cão:!. – Senhor Vento,

Então Ulisses, que todos diziam ser o mais manhoso dos homens, pensou, pensou e teve uma ideia: construir um enorme, um gigantesco cavalo de pau, assente num estrado com rodas para

Também são aspectos relevantes para a efetivação do direito ao meio ambiente sadio o dever fundamental do Estado em garantir a vida em um meio ambiente digno e a ponderação entre

Upon the entry into force of this Protocol, the Sec- retary General of the North Atlantic Treaty Organi- sation shall, on behalf of all the Parties, communicate to the Government of

A partir de dados hidroacústicos coletados sobre a plataforma continental sul do Rio Grande do Sul, através de uma eco-sonda científica EK500 SIMRAD, com freqüência de 38