• Nenhum resultado encontrado

MEDIA NA WEB. JORGE TEIXEIRA - SSIIM 2011/2012. Processamento de notícias da web

N/A
N/A
Protected

Academic year: 2021

Share "MEDIA NA WEB. JORGE TEIXEIRA - SSIIM 2011/2012. Processamento de notícias da web"

Copied!
44
0
0

Texto

(1)

MEDIA NA WEB

Processamento de notícias da web

SSIIM 2011/2012

(2)
(3)

Sistemas de recomendação

(4)

The News.me Daily Email finds the best stories from your Twitter stream”

PROCESSAMENTO DE INFORMAÇÃO

“paper.li enables people to publish

newspapers based on topics they like and treat their readers to fresh news, daily”

(5)
(6)

Alinhamento de notícias em várias línguas

(7)

Agregadores de notícias

(8)

VISUALIZAÇÃO DE INFORMAÇÃO

(9)

Timeline de notícias (247.liberi.it)

(10)

Wordcould de tópicos (Jornal de Negócios)

(11)

VISUALIZAÇÃO DE INFORMAÇÃO

(12)

Redes de entidades (dirtyenergymoney.com)

(13)

Redes de tópicos e personalidades em notícias (247.liberi.it)

(14)

Geo-referenciação/localização de notícias

(15)

VERBETES

(16)

Serviço para pesquisa biográfica de entidades (pessoas, organizações)

Este serviço responde a perguntas como:

Quem é Alberto João Jardim?

Qual a profissão/cargo de Paulo Portas em July 2011? e hoje?

Quem é o ministro da defesa de Israel?

(17)

Com quem co-ocorreu Paulo Bento de Outubro de 2010 até hoje?

Tendências de co-ocorrências entre

Paulo Bento e Jorge Jesus entre Setembro 2011 até hoje?

(18)

Paulo Bento: selecionador nacional

Rui Bento: treinador Beira Mar

Vítor Bento: economista

(19)

Com base no contexto (notícia, blog, tweet, etc)

Nomes: Paulo Bento

Cargos/profissões: selecionador nacional

Acrónimos e tags: futebol ou economia

Rede de co-ocorrências: José Mourinho

(20)

Recolhe informação das notícias da web

Extraí tuplos das notícias com base em padrões

[ Paulo Bento; Selecionador Nacional; 2010-10-01; 2011-10-04 ]

Identifica nomes alternativos (Pedro Passos Coelho, Passos Coelho,

Passos)

Classifica os tuplos como pessoa, organizacão ou outro

Guarda os tuplos numa BD MySQL e fornece os dados via WS

(21)

Catálogo de serviços do sapo:

services.sapo.pt >> InformationRetrievel

Métodos:

WhoIs?name=Paulo Portas&date=2010-07-01

WhoIs?job=ministro da defesa de Israel

GetPersonalities[?min=5]

GetErgos[?min=5]

GetCoOccurrences?name=PauloPortas&begin_date=...&end_date=...

GetCoOccurrencesTrends?name1=...&name2=...&begin_date=...&end_date=...

• Combinação de parâmetros: name, name_like, job, job_like, date, margin, format

• Flags: inactive, dead

(22)

Voxx

PeopleSearch

Semantic Lists

Sapo

LIACC/FEUP

you?

Utilizadores

(23)

VERBATIM / VOXX

EXTRACÇÃO AUTOMÁTICA DE CITAÇÕES EM NOTÍCIAS

gmalta gmalta

(24)

MOTIVAÇÃO

Actualmente existe um fluxo gigantesco de notícias que são publicadas

diariamente em sites web

Como organizar toda esta informação e torná-la útil do ponto de vista

humano?

Como criar histórico de citações?

Como seguir tópicos ou personalidades?

Como identificar tópicos ou personalidades activas/quentes?

gmalta gmalta

(25)

TECNOLOGIAS BASE

Recolha de notícias

Extracção de citações

Classificação automática de notícias

Interface dinâmico

gmalta gmalta

(26)

RECOLHA DE NOTÍCIAS

Stream de dados fornecidos pelo Sapo

<?xml version="1.0" encoding="UTF-8"?>

<document timestamp="2010-10-13T21:04:14.701Z" isnew="false"> <channel-title>www.ocastanheirense.com</channel-title>

<url>http://www.ocastanheirense.com/1832/noticias.html</url> <hostname>www.ocastanheirense.com</hostname>

<pubdate>2010-10-10T02:58:21Z</pubdate>

<title>Paulo Portas visitou Castanheira de Pera</title>

<body>O Município de Castanheira de Pera comemorou mais um aniversário do 25 de Abril. O hastear da Bandeira, com a presença de entidades civis, GNR e escolta dos Bombeiros Voluntários, abriu as solenidad$

<lang>pt</lang> <categories/> <images/> <geo> <local> <name>Pedrógão Grande</name> <district id="10">Leiria</district>

<municipality id="1013">Pedrógão Grande</municipality> <parish id="101302">Pedrógão Grande</parish>

</local> </geo>

</document>

gmalta gmalta

(27)

RECOLHA DE NOTÍCIAS

Consumir o stream de dados

Armazenar os dados em BD indexadas

Estruturar a BD para escrita menos frequente e leitura muito frequente

Estruturar a BD (tabelas) para pesquisas rápidas

Utilizar crons para repetir o processo horiariamente

1000 a 1500 notícias / dia

gmalta gmalta

(28)

RECOLHA DE NOTÍCIAS

gmalta gmalta 0" 500" 1000" 1500" 2000" 2500" 3000" 3500" 4000" 4500" 9/1/11" 9/4/11" 9/7/11" 9/10/11" 9/13/11" 9/16/11" 9/19/11" 9/22/11" 9/25/11" 9/28/11"

(29)

O que são citações?

EXTRACÇÃO DE CITAÇÕES

gmalta gmalta

(30)

EXTRACÇÃO DE CITAÇÕES

Como são identificadas?

“José Sócrates afirmou que o crescimento ... da recuperação económica.” 1. A citação inicia-se com o nome próprio (neste caso nome de pessoa) 2. Segue-se um verbo de comunicação

3. Termina num ponto final

gmalta gmalta

(31)

EXTRACÇÃO DE CITAÇÕES

Baseia-se em regras (expressões regulares)

1. Cada nova notícia é analisada

2. Se for identificada uma citação na notícia

3. Citação é extraída e armazenada numa BD 4. Processo repetido até finalizar a notícia

5. Executado horariamente até terminarem as novas notícias

17 categorias de regras, 118 verbos de comunicação

gmalta gmalta

(32)

Como resolver o problema de notícias / citações duplicadas?

EXTRACÇÃO DE CITAÇÕES

gmalta gmalta

(33)

EXTRACÇÃO DE CITAÇÕES

É um problema grave

Extracção de Conteúdos: Duplicados

•  "40% das citações extraídas têm pelo menos um duplicado.

00% 10% 20% 30% 40% 50% 60% 70% 1 2 3 4 5 6 7 8 Group size gmalta gmalta

(34)

EXTRACÇÃO DE CITAÇÕES

Estratégias típicas de remoção de duplicados:

1. Cada nova notícia é comparada com as notícias já recolhidas e temporalmente próximas (aprox. 15 dias)

2. Sempre que a sobreposição entre duas notícias é grande é criado um grupo de notícias duplicadas

3. Este processo repete-se horariamente e até terminarem novas notícias 4. Só será processada uma notícia de cada grupo de duplicados

gmalta gmalta

(35)

CLASSIFICAÇÃO DE NOTÍCIAS

Como atribuir automaticamente um tópico / tema para uma notícia?

Usar as taggs atribuídas pelos jornalistas?

Usar as secçoes dos jornais onde são publicadas as notícias?

Usar “pistas” presentes nos títulos das notícias?

Usar palavras-chave nas notícias?

gmalta gmalta

(36)

CLASSIFICAÇÃO DE NOTÍCIAS

Como funciona a classificação automática de texto?

1. É criado um conjunto de exemplos positivos

2. A partir deste conjunto é criado um modelo de classificação 3. O modelo é depois aplicado a notícias (documentos teste)

4. Com base nos modelos previamente treinados, o sistema retorna um possível tópico para a notícia (com um valor de probabilidade)

5. Tópico aceite se o valor de probabilidade obtido acima do threshold

gmalta gmalta

(37)

CLASSIFICAÇÃO DE NOTÍCIAS

Como criar o conjunto de exemplos positivos?

1. Identificar tópicos a partir de padrões típicos no título

Problemas / desafios com esta técnica:

“Dia 20 de Junho: Marchas populares em Palmela”

“Paulo Portas: Banco de Portugal precisa ...”

gmalta gmalta

(38)

CLASSIFICAÇÃO DE NOTÍCIAS

Classificadores usados:

1. k-Nearest Neighbour 2. Rocchio

3. Support Vector Machines

Notícias novas classificadas horáriamente

Modelos treinados diariamente

gmalta gmalta

(39)

CLASSIFICAÇÃO DE NOTÍCIAS

Porquê 3 classificadores?

Tópicos pouco-equilibrados

Classificação: Estatísticas

•  " 40% das citações extraídas são classificadas

•  Distribuição das citações pelos tópicos:

30 0 100 200 300 400 500 600 Futebol L eg is la tiv as P SD E u ro p eia s BPN EUA Freeport Educação P S C ris e G u in é-B is sa u BPP Prove dor L is bo a Q im on d a M éd io O rie n te M ad eir a Gov erno A u tá rq u ic as /L is bo a EU De sp or to Irão G rip e A H 1N 1 Ju st iç a Sp or tin g C on ju n tu ra Açore s gmalta gmalta

(40)

DEMONSTRAÇÃO

gmalta gmalta

(41)

TÓPICOS DE INVESTIGAÇÃO

Extracção de informação

Identificação e extracção de citações e descrições biográficas

Identificação de entidades (nomes de pessoas e organizações)

Desambiguação de entidades

Identificação de possíveis tópicos para notícias

Aprendizagem Automática (Machine Learinig)

Classificação de notícias por tópico ou tema

gmalta gmalta

(42)
(43)

TÓPICOS PARA TRABALHOS

Recolha automática de dados biográficos da wikipedia, LinkedIn, Twitter, ...

Visualização de redes de pessoas / organizações

Criação de time-lines em notícias

Visualização de palavras-chave em notícias

Criação de perfis opinativos

(44)

LINKS & CONTACTOS

Voxx: http://voxx.sapo.pt

Verbetes: http://services.sapo.pt -> InformationRetrievel/Verbetes

NewYorkTimesLab: http://nytlabs.com

NewsExplorer: http://emm.newsexplorer.eu/NewsExplorer/

Visual Complexity: http://www.visualcomplexity.com

Prof. Eugénio Oliveira - eco@fe.up.pt

Jorge Teixeira - jft@fe.up.pt

Referências

Documentos relacionados

A determinação da variação dimensional de barras de argamassa, conforme a NBR 13.583, foi utilizada para avaliar o potencial de mitigação do material ligante composto por cimento CP

Os ativos não circulantes classificados como disponível para venda são mensurados pelo menor montante entre o seu custo contábil e o seu valor justo, líquido das despesas com a

Foram calculados os valores de viés linear (mm) e relativo (%) para cada pixel na região de estudo pela diferença entre as médias mensais do período 1976 – 2005 das

A formação do mercado interno acontece de maneira desorientada e com inúmeras desigualdades regionais. A dinâmica distributiva da renda durante o processo de

A empresa Vital Care tem uma oportunidade de mercado colocando o Álcool Care em sua linha produtiva e para isso precisa elaborar seu preço de venda corretamente a fim de

O período estabelecido para que ocorresse o registro foi de um ano, portanto, a estimativa da taxa de sub-registro representa a percentagem de crianças nascidas vivas em hospitais

Toda task tem uma fila de espera para cada procedure tipo entry declarada, mais uma estrutura com duas filas (ambas já referidas), as quais servem para implementar os encontros

Lembrando que o método do pêndulo bifilar foi escolhido como parâmetro de comparação a partir do estudo feito por Genta &amp; Delprete (1994), que ao analisarem diferentes