Reconhecimento de informações padronizadas no conteúdo de emails

(1)

Reconhecimento de Informac¸˜oes

Padronizadas no Conte ´udo de Emails

Ricardo Jo˜ao Teixeira Santos Mestre

Relatório de Projecto/Dissertação

Mestrado Integrado em Engenharia Informática e Computação Orientador: Doutor Luis Paulo Reis

(2)

Conte ´udo de Emails

Ricardo Jo˜ao Teixeira Santos Mestre

Relatório de Projecto/Dissertação

Mestrado Integrado em Engenharia Informática e Computação

Aprovado em provas p´ublicas pelo j´uri:

Presidente: Doutor Pedro Ferreira Souto

Arguente: Doutor Paulo Cortez

Vogal (Orientador): Doutor Luis Paulo Reis

(3)

A informação que é recebida diariamente na caixa de email é, em grande parte dos casos, uma preocupação devido ao seu volume. No entanto, a gestão e organização da informação das caixas de correio electrónico começa já a contar com algumas tecnologias que permitem aceder à informação de uma forma rápida, simples e eficaz.

Este projecto intitula-se “Reconhecimento de Informação Padronizada no Conteúdo de Emails” e decorreu na Portugalmail - Comunicações, S.A, e consiste no desenvolvi-mento de um sistema, a ser incorporado na plataforma de webmail, capaz de reconhecer vários tipos de informação existentes no conteúdo de emails.

A motivação deste projecto passa por criar um novo conceito de serviço de email, im-plementado funcionalidades que permitam ao sistema ajudar o utilizador na interpretação do conteúdo do seus emails, apresentado de uma forma distinta, a informação relevante que neles possa estar contida.

O objectivo passa por desenvolver uma ferramenta capaz de reconhecer, interpretar e apresentar vários tipos de informação contida em emails. Assim sendo, durante o projecto espera-se desenvolver uma metodologia eficaz na detecção de eventos calendarizáveis no conteúdo de emails, criar um conjunto de módulos capazes de reconhecer diferentes tipos de informação e retornar diferentes tipos de dados e finalmente conceber um sistema ao qual é poss´ıvel acoplar esses módulos.

Depois de definidas as funcionalidades a desenvolver e estudada a linguagem a utilizar, foram desenvolvidos alguns módulos para reconhecer diferentes tipos de informação. Destes módulos, destaca-se o reconhecimento de eventos calendarizáveis, onde se aplicaram algoritmos de aprendizagem e classificação em conjunto com expressões regulares. A concepção deste módulo levou a num estudo, do qual se pretendia saber compreender de que forma as expressões regulares, em conjunto com o algoritmo Bayesiano, podem ajudar eficazmente na detecção de informação espec´ıfica em ambientes sem contexto e com bastante ru´ıdo. Este estudo acabou por se converter na base desta tese, do qual foi poss´ıvel concluir que as expressões regulares são bastante eficazes na filtragem de emails que não contêm eventos e, com o devido treino, o algoritmo bayesiano tem capacidade para reconhecer com bastante eficácia emails que os contêm.

No final do projecto, as expectativas foram superadas, tendo sido atingidos pratica-mente todos os objectivos propostos ficando apenas por concluir a integração com o cal-endário da plataforma devido ao facto de ainda se encontrar em desenvolvimento. Foi concebido um protótipo, como prova do conceito, funcionando com três módulos difer-entes, entre os quais se encontra o reconhecimento de eventos calendarizáveis.

(4)

The information that is received daily in the mailbox is, for most of the cases, a con-cern due to it’s volume. However, the management and organization of the information in mailboxes is a task that is already supported by some technologies that allow the access to information in a faster, simpler and accurate way.

This project, titled “Recognition of Standardized Information on Emails Content”, took place in Portugalmail - Comunicac¸˜oes, S.A and consists in a system able to recognize various types of information in the content of emails. This system is to be incorporated in the webmail platform.

This project is motivated by the creation of a new concept of email service, develop-ping new features that allow the system to help the user getting relevant information from his emails content, presenting that information in a more friendly and distinctive way.

The main goals is to develop a tool capable of recognising, interpreting and presenting several kinds of information contained on emails. In the end of this, it is expected to develop an effective methodology to recognition schedulable events on emails content, create a group of modules capable of recognising different kinds of information returning different kinds of results and finally concebe a system to attach all these modules.

After defining the features, there were developed some modules, each one with it’s recognition system. The main module of this thesis is the schedulable event recognition module. It uses learning and classification algorithms together with regular expressions. It lead the a study with the goal to undestand how significant regular expressions, com-bined with bayesian algorithm, are to detect information effectively in no context and noisy environmets. This study was converted on this thesis’s background, from which it was possible to conclude that regular expressions are very effective filtering emails that don’t contain schedulable events and that bayesian algorithm, with the proper training, is capable of doing a nice job detecting emails that do contain events.

In the end of this project, almost all the objectives were completed, missing the in-tegration with the calendar because it is still being developed. Anyway, it was possible to create a functional prototype as a proof of concept. It is working with three modules, where one of them is the schedulable event recognizer.

(5)

Um especial agradecimento para...

... os meus pais, que em toda a minha vida me desafiaram a compreender a minha capacidade para alcançar o sucesso e sem os quais a realização deste projecto nunca teria sido poss´ıvel.

... os meus amigos, que nos bons e maus momentos sempre me apoiaram e fizeram acreditar que este dia acabaria por chegar.

... o Eng. Nuno Lopes, orientador da Portugalmail, pelo acolhimento na instituic¸˜ao e apoio prestado duranta o desenvolvimento do projecto.

... o Professor Doutor Luis Paulo Reis, orientador da FEUP, pelo apoio e disponibili-dade prestados durante todo o projecto.

... toda a equipa da Portugalmail pelo ambiente criado que sem dúvida foi um factor decisivo para manter a boa disposição e vontade de concluir este projecto.

(6)

1 Introdução 1 1.1 A Portugalmail . . . 1 1.2 Motivação e Enquadramento . . . 2 1.3 Objectivos . . . 2 1.4 Estrutura da Tese . . . 2 2 Email Inteligente 4 2.1 Introdução . . . 4 2.2 Conceitos . . . 5

2.2.1 Processamento de Linguagem Natural . . . 6

2.2.2 Reconhecimento de Padrões . . . 7 2.2.3 Text Mining . . . 9 2.3 Trabalhos Desenvolvidos . . . 11 2.3.1 Previsão de resposta . . . 11 2.3.2 Sumários . . . 11 2.3.3 Falta de anexo . . . 12 2.3.4 Detecção de Spam . . . 12 2.4 Funcionalidades da Portugalmail . . . 14 2.5 Sumário do Cap´ıtulo . . . 14 3 Projecto 15 3.1 Concepção de Ideias . . . 15 3.1.1 Brainstorming . . . 15 3.1.2 Questionário . . . 18 3.1.3 Conclusões . . . 20 3.2 Definição do Projecto . . . 20

3.2.1 Definic¸˜ao das Tecnologias . . . 20

3.2.2 Levantamento de Requisitos . . . 22

3.3 Sum´ario do Cap´ıtulo . . . 22

4 Detecção de Eventos num Email 23 4.1 Conceito . . . 23 4.2 Teorema de Bayes . . . 25 4.2.1 Introdução Teórica . . . 25 4.2.2 Da Teoria à Prática . . . 26 4.3 Módulos Desenvolvidos . . . 27 4.3.1 Dicionário . . . 27

(7)

4.3.2 Filtro de Eventos . . . 28

4.3.3 Analisador sint´actico . . . 29

4.3.4 Filtro de Datas . . . 31

4.3.5 Serviço de Reconhecimento de Informação . . . 31

4.4 Resultados . . . 34

4.4.1 Evolução da classificação de emails consoante o treino do algoritmo 35 4.4.2 Conclusões . . . 39

4.5 Prot´otipo . . . 39

4.6 Sum´ario do Cap´ıtulo . . . 41

5 Outras Funcionalidades Desenvolvidas 43 5.1 Keywords Detector . . . 43 5.2 Sumarização de Conteúdo . . . 44 5.3 Tradução de Linguagem SMS . . . 46 5.4 Localização Geográfica . . . 47 5.5 Youtube . . . 49 5.6 Flickr . . . 51 5.7 Sumário do Cap´ıtulo . . . 53 6 Conclusões 54 6.1 Conclusões e Inovações da Solução . . . 54

6.2 Limitações da Solução . . . 55

6.3 Trabalho Futuro . . . 55

Referˆencias 57

A Brainstorming MindMap 58

B Question´ario 62

C Testes de performance entre tecnologias 65

(8)

1.1 Portugalmail - Comunicac¸˜oes, S.A. Logotipo . . . 1

3.1 Brainstorming do Projecto . . . 16

3.2 Funcionalidades por Categorias . . . 17

3.3 Quais os tipos de emails que recebe na sua caixa de email? . . . 18

3.4 Quais os tipos de emails costuma enviar ou acc¸˜oes que costuma realizar na web? . . . 19

3.5 Na sua actividade di´aria, com que frequˆencia envia emails com anexo? . . 19

3.6 Na sua actividade diária, com que frequência realiza marcações de eventos? 19 3.7 Comparação de Tecnologias . . . 21

4.1 An´alise sint´actica feita pelo Lingua::Linkparser . . . 30

4.2 Sintaxer - Exemplo 1 . . . 30

4.5 Diagrama de fluxo de informac¸˜ao . . . 33

4.6 Gráfico da evolução dos emails avaliados correctamente como contendo eventos consoante o treino do algoritmo . . . 36

4.7 Gráfico da evolução dos emails avaliados incorrectamente como contendo eventos consoante o treino do algoritmo . . . 37

4.8 Gráfico da evolução dos emails avaliados incorrectamente como contendo eventos consoante o treino do algoritmo . . . 38

4.9 Gráfico da evolução dos emails avaliados incorrectamente como não con-tendo eventos consoante o treino do algoritmo . . . 38

4.10 Prot´otipo - Email contendo um evento . . . 40

4.11 Prot´otipo - Reconhecimento de um evento no conte´udo de um email . . . 40

4.12 Prot´otipo - Reconhecimento de mais do que um evento no conte´udo de um email . . . 40

4.13 Protótipo - Email contendo um evento, um v´ıdeo e um álbum de fotografias 41 4.14 Protótipo - Reconhecimento de um evento, um v´ıdeo e um álbum de fo-tografias no conteúdo de um email . . . 41

5.1 Exemplo - Keywords Detector . . . 44

5.2 Exemplo - Sumarizac¸˜ao de emails sem assunto . . . 45

5.3 Exemplo - Sumarizac¸˜ao de emails com assunto . . . 46

5.4 Exemplo - Email com abreviaturas . . . 47

5.5 Exemplo - Email filtrado sem abreviaturas . . . 47

(9)

5.7 Exemplo - Resultado do reconhecimento de localização geográfica (Texto) 49 5.8 Exemplo - Resultado do reconhecimento de localização geográfica (Browser) 49 5.9 Exemplo - Resultado do reconhecimento de localização geográfica (Mapa)

49

5.10 Exemplo - Reconhecimento de links do Youtube num email . . . 50

5.11 Exemplo - Apresentac¸˜ao de v´ıdeos do Youtube num email . . . 51

5.12 Exemplo - Email com links para fotografias do Flickr . . . 52

5.13 Exemplo - Apresentac¸˜ao das fotografias do Flickr num Email . . . 53

A.1 Brainstorming MindMap do Projecto - Inbox . . . 58

A.2 Brainstorming MindMap do Projecto - Leitura do Email . . . 59

A.3 Brainstorming MindMap do Projecto - Escrever Email . . . 60

A.4 Brainstorming MindMap do Projecto - Contactos . . . 60

A.5 Brainstorming MindMap do Projecto - Eventos . . . 60

A.6 Brainstorming MindMap do Projecto - Estatisticas . . . 61

A.7 Brainstorming MindMap do Projecto - Outras Ideias . . . 61

(10)

3.1 Resultados da Comparac¸˜ao de Tecnologias . . . 21

4.1 Exemplo de filtragem de frases . . . 29

4.2 Tipos de ligac¸˜oes gramaticais seleccionadas . . . 30

4.3 Exemplos de datas reconhecidas pelo filtro de datas . . . 32

4.4 Exemplos de resultados obtidos usando o filtro de datas . . . 32

4.5 Casos de teste . . . 35

4.6 Legenda . . . 35

4.7 Evolução da classificação correcta de emails que contêm eventos con-soante o treino . . . 35

4.8 Legenda . . . 36

4.9 Evolução da classificação correcta de emails que não contêm eventos con-soante o treino . . . 37

4.10 Legenda . . . 37

5.1 Pontuações atribu´ıdas ao sumário sem assunto da mensagem . . . 46

5.2 Pontuações atribu´ıdas ao sumário com assunto da mensagem . . . 46

C.1 Tempos de execuss˜ao - Java . . . 65

C.2 Tempos de execuss˜ao - Perl . . . 65

(11)

SMTP Simple Mail Transfer Protocol RFC Request for Comments

OCR Optical Character Recognition GLN Gerac¸˜ao de Linguagem Natural IMAP Internet Message Access Protocol POP3 Post Office Protocol 3

IMP Internet Messaging Program

DIMP Dynamic IMP

PHP Hypertext Processor

LAPP Linux, Apache, PostgreSQL, PHP/Python/Perl LDAP Lightweight Directory Access Protocol

GPS Global Positioning System CSV Comma Separated Values DCG Definite Clause Grammar

(12)

Introduc¸˜ao

Este cap´ıtulo faz uma introdução ao projecto desenvolvido na Portugalmail, começando por uma apresentação da empresa e quais os seus objectivos no mercado. De seguida descreve-se qual a motivação que levou à realização do projecto e como este se enquadra nas necessidades da Portugalmail, relatando também quais os objectivos que se preten-dem atingir. Por fim é feita uma descrição da estrutura deste documento com um breve resumo de cada cap´ıtulo.

1.1 A Portugalmail

A Portugalmail - Comunicações, S.A. é uma pequena/média empresa que dedica o seu negócio às tecnologias de informação e comunicação. Foi criada a 20 de Março de 1999 com o objectivo de criar e dar suporte a um serviço de email gratuito em português. Desde então a empresa tem vindo a crescer implementando outros serviços web nomeadamente registo de dom´ınios, alojamento Internet, publicidade online, serviço de blog (Blog.com), um site comunitário sobre futebol (www.futebolar.com) e software de gestão PHC.

Figura 1.1: Portugalmail - Comunicac¸˜oes, S.A. Logotipo

A Portugalmail tem como objectivo ser uma referência no fornecimento de serviços de correio electrónico. Nesse contexto, o serviço de email está dividido em duas cat-egorias diferentes: o email para utilizadores individuais e a plataforma para empresas.

(13)

Os utilizadores individuais podem criar contas com o dom´ınio portugalmail.pt ou por-tugalmail.com. Os clientes profissionais são clientes que procuram na Portugalmail uma solução de outsourcings para gestão do email, manutenção e equipamento.

Media Capital, Onitelecom, Grupo Sonae, Grupo M. Coutinho, AICCOPN (Associação dos Industriais da Construção Civil e Obras Públicas) e o Ministério da Saúde (através do programa MCSP - Missão para os Cuidados de Saúde Primários) são alguns dos maiores clientes activos da Portugalmail.

1.2 Motivac¸˜ao e Enquadramento

O projecto desenvolvido, designado “Reconhecimento de Informações Padronizadas no Conteúdo de Emails”, foi proposto pela Portugalmail com o objectivo de implementar funcionalidades inovadoras e criativas na nova plataforma de webmail que se encontra em desenvolvimento. Pretende também trazer um novo conceito de serviço de email para o mercado. Uma das inovações propostas por este projecto é o módulo da secretária, que se trata de uma assistente pessoal que interage com o utilizador de forma inteligente e o ajuda nas mais variadas tarefas relacionadas com a gestão da sua caixa de correio electrónico. Para realizar estas tarefas a secretária conta com a área da inteligência arti-ficial que lhe permite obter um grau de relacionamento com o utilizador muito mais hu-mano. A detecção de informação relevante no conteúdo dos emails e apresentação dessa mesma informação de uma forma mais percept´ıvel e usável, é uma das caracter´ısticas propostas para implementação e é neste contexto que esta tese se baseia.

1.3 Objectivos

Este projecto tem como objectivo dotar o módulo da secretária com a capacidade de reconhecer, processar e apresentar num formato mais simples e intuitivo, todo o tipo de informação útil e que obedeça a algum tipo de padrão, contida nos emails do utilizador. Espera-se que com este sistema, a Portugalmail consiga ganhar uma vantagem compet-itiva obtida através da criatividade e de um serviço inovador, que permite ao utilizador manter-se contactável de uma forma organizada e simples. Na base desta tese, pretende-se propor uma nova abordagem nesta tarefa utilizado algoritmos de aprendizagem em conjunto com algoritmos de reconhecimento de informação e expressões regulares de forma a obter resultados com o máximo de precisão poss´ıvel.

1.4 Estrutura da Tese

Esta tese está apresentada em seis cap´ıtulos, sendo que o primeiro cap´ıtulo faz uma apresentação da empresa onde decorreu o projecto e uma introdução ao trabalho proposto.

(14)

´

E feita uma contextualização do problema e descritos quais os objectivos a atingir. No segundo cap´ıtulo é feita uma contextualização mais aprofundada do problema, são explicados alguns conceitos ligados ao reconhecimento de padrões e é dada a conhecer a realidade actual relactivamente a este tema.

No terceiro cap´ıtulo é feita a concepção do problema e são descritas as estratégias utilizadas para a definição de soluções. É ainda elaborado um estudo das tecnologias a utilizar.

O cap´ıtulo quatro refere-se à proposta de solução para o problema principal desta tese: o reconhecimento de eventos num email. É dado a conhecer o Teorema de Bayes e como este se aplica na solução, são descritos e esquematizados outros módulos desenvolvidos para dar suporte à solução criada, são realizados testes e tiradas conclusões sobre os mes-mos. Finalmente é apresentado um protótipo funcional da solução.

O cap´ıtulo cinco está reservado à descrição e ilustração de outras funcionalidades de-senvolvidas para o projecto, que têm como objectivo reconhecer outros tipos de informação útil no conteúdo de emails.

Finalmente, no sexto cap´ıtulo, são elaboradas as conclusões finais do trabalho de-senvolvido, bem como as inovações e limitações inerentes à solução apresentada. São também apresentadas as perspectivas de desenvolvimentos futuros.

(15)

Email Inteligente

Neste cap´ıtulo é feita uma contextualização do problema proposto para este trabalho. ´

E dada uma perspectiva da realidade actual relativamente ao reconhecimento de informação em vários contextos e são explicados alguns conceitos que orbitam em torno desta área.

2.1 Introduc¸˜ao

Nos últimos anos tem-se vindo a notar um crescimento exponencial no que toca ao aparecimento e desenvolvimento de novas tecnologias. Criatividade, inovação e compe-titividadesão as palavras na vanguarda do mundo tecnológico actual, na usabilidade e na comunicação. São inúmeras as fontes de informação que estão dispon´ıveis e que bom-bardeiamos utilizadores a toda a hora por correio electrónico, SMS, Instant Messaging, RSS feeds, entre muitas outras. Podemos então afirmar que a palavra “informação” ga-nhou um peso e um valor dif´ıceis de ignorar.

No entanto, todo este desenvolvimento tecnológico levou a uma mudança de hábitos no quotidiano das pessoas que, a seu ritmo, foram pondo de parte a renitência existente em relação a este conceito, aderindo a ele e alimentando-o. Twitter, Redes Sociais (Facebook, Hi5, LinkedIn), Youtube, Picasa e o próprio email são alguns exemplos de sucesso que têm vindo a ganhar cada vez mais adeptos.

A partilha de informação tornou-se assim um hábito. O facto de ser poss´ıvel o acesso a todos os tipos de informação no momento em que ela é disponibilizada, é um privilégio. No entanto, como quase tudo na vida, há sempre uma outra face da medalha. Um dos maiores problemas ligados a este tema prende-se com a gestão da informação, a sua organização e o grau de complexidade que essa tarefa pode atingir. Para isso vão surgindo cada vez mais soluções que ajudam o utilizador a organizar de uma forma automática e “inteligente” a informação, tornado-a ainda mais dispon´ıvel.

(16)

Nos dias que correm, e cada vez mais, o email é uma ferramenta indispensável na vida da maioria das pessoas que utiliza o computador como ferramenta de comunicação. No entanto, o uso do email (e até do número de contas de email por utilizador) tem aumentado e consequentemente o tempo despendido na sua gestão acompanhou esse aumento. Um estudo realizado pela Fuser.com1 indica que cerca de 87% dos utilizadores de Internet dos Estados Unidos gastam mais de 7 horas por semana a gerir os seus emails e contas de redes sociais [1].

Tendo em conta este problema, começaram a ser desenvolvidos mecanismos para aju-dar os utilizadores a gerir, de uma forma mais eficaz, os seus emails. Desde os detectores de SPAM e filtros personalizados até à integração de outros serviços com o email, tudo vale para poupar tempo de gestão. À medida que as necessidades vão surgindo, e a tec-nologia evolui, novos métodos vão sendo desenvolvidos até que a inteligência artificial, e mais concretamente o reconhecimento de padrões, começaram a ter alguma relevância nesta área, vulgarmente designada por Email Inteligente (Intelligent Email). Em 2008, foi escrito um artigo por Dredze2et al.[2] que explica a abordagem feita sobre três aspectos essenciais, com base no problema da sobrecarga do email, do ponto de vista do utilizador: a geração de palavras-chave sumariando o conteúdo dos emails, a previsão de necessidade de resposta a um email e a previsão de falta de anexo.

“Este trabalho demonstra que a representação do comportamento do uti-lizador em relação ao email tem um papel significativo na construção de in-terfaces de email inteligente. Para além disso, a inteligência artificial permite que os sistemas de email possam prever e responder melhor ao comporta-mento do utilizador”[2]

2.2 Conceitos

Para que o conceito de email inteligente seja uma realidade, existe todo um conjunto de tecnologias envolvidas que acabam por convergir em duas áreas principais: a estat´ıstica e a inteligência artificial. Alguns exemplos de tecnologias são o processamento de lin-guagem natural, o reconhecimento de padrões e o text mining sobre os quais se falará neste cap´ıtulo dando uma noção teórica sobre em que consistem e como estão relacciona-dos entre si.

1_{www.Fuser.com}

(17)

2.2.1 Processamento de Linguagem Natural

“Processamento de Linguagem Natural consiste no desenvolvimento de modelos computacionais para a realização de tarefas que dependem de informações expressas numa linguagem natural.” [3]

“Dotar as máquinas de capacidade de compreensão e resposta ao que as pessoas se referem, de forma a que estas possam interagir com o computador naturalmente não tendo por isso de se adaptar às suas limitações.”[4]

O processamento de Linguagem Natural é um campo das ciências de computação que torna a comunicação entre computadores e humanos muito mais simples.

Existem já algumas aplicações desta área em vários contextos. Eis algumas funciona-lidades onde o processamento da linguagem natural está presente:

• traduções de textos em diferentes linguagens; • extracção de informação;

• geração de linguagem natural; • compreensão de linguagem natural; • resposta a questões;

• sistemas de di´alogo;

• simplificação/sumarização de texto; • conversão de texto para fala.

´

E importante distinguir duas vertentes nesta área: os Sistemas de Geração de Lin-guagem Natural, que convertem uma linLin-guagem formal, entendida por computadores, numa linguagem natural, entendida por humanos, e os Sistemas de Compreensão de Lin-guagem Natural, que fazem o trabalho oposto, ou seja, interpretam frases escritas por humanos e convertem-nas em linguagem formal que pode ser posteriormente interpretada pelos sistemas informáticos.

O processamento de linguagem natural é feito em três etapas na seguinte ordem: análise morfológica, análise sintáctica (que por sua vez se subdivide em três tipos de gramáticas: regulares, livres de contexto e sens´ıveis ao contexto) e análise semântica.

• Análise morfológica: nesta etapa o analisador identifica as palavras ou expressões isoladas na frase separadas por carácteres delimitadores (ex: espaço, ponto, ponto e v´ırgula) e as classifica de acordo com a sua categoria gramatical. A morfologia trata as palavras quanto à sua estrutura, forma, flexão e classificação.

(18)

• Análise sintáctica: o analisador sintáctico constrói árvores de derivação para cada frase baseado nas DCGs (Definite Clause Grammars). Desta forma é poss´ıvel ve-rificar a concordância nominal e verbal bem como o posicionamento dos termos na frase. Existem três gramáticas formais que podem ser utilizadas. Estas gramáticas estão organizadas segundo a Hierarquia de Chomsky e designam-se por Gramáticas sens´ıveis ao contexto(Tipo 1), Gramáticas livres de contexto (Tipo 2) e Gramáticas regulares(Tipo 3) [5]. As gramáticas de Tipo 1 serão utilizadas no módulo do anal-isador sintáctico (Secção4.3.3) e as de Tipo 3 serão utilizadas em vários módulos que implementem expressões regulares.

• Análise semântica: o analisador semântico examina o significado das estruturas criadas pelo analisador sintáctico. Este processo pode ocorrer enquanto as árvores são criadas ou então posteriormente.

A grande questão nesta área reside na palavra ”compreensão“. Há uns anos atrás, os sistemas referidos acima funcionavam relativamente bem para dom´ınios fechados porque se tratava de um ambiente controlado e restrito do ponto de vista do vocabulário e con-ceitos. No entanto, sentiu-se a necessidade de levar o processamento da linguagem natural um pouco mais longe, entrando em ambientes com dom´ınios variados que levou ao en-contro de novas barreiras que ainda hoje não foram totalmente ultrapassadas, sendo a ambiguidadeuma delas. A ambiguidade existe e, segundo Chantree [6], não é poss´ıvel eliminá-la, pelo que os designers de sistemas GLN (Geração de Linguagem Natural) ten-tam a todo o custo evitá-la.

´

E poss´ıvel classificar a ambiguidade a trˆes n´ıveis:

• ambiguidade lexical (palavras com v´arios significados);

• ambiguidade semântica (várias interpretações de uma frase dependendo da combinação das palavras);

• ambiguidade pragmática (frases com vários significados dependendo do contexto). Chantree afirma ainda que por vezes a ambiguidade não deve ser eliminada e propõe uma ferramenta (The NLG Tool) que, com a ajuda do utilizador, aprende em que casos a ambiguidade deve ser mantida ou não [6].

2.2.2 Reconhecimento de Padr˜oes

”Reconhecimento de Padrões é a disciplina cient´ıfica cujo objectivo con-siste na classificação de objectos num conjunto de categorias ou classes.“ [7] Reconhecimento de padrões é a ciência que tem como objectivo identificar e classificar padrões de objectos baseado num conjunto de regras e caracter´ısticas. As técnicas de

(19)

reconhecimento de padrões são muito utilizadas para automatizar processos de tomada de decisão sem necessidade de intervenção humana.

Quando se fala em reconhecimento de padrões, existem três abordagens poss´ıveis: • reconhecimento de padrões estat´ıstico - reconhecimento da natureza estat´ıstica

da informação que se quer representar e dos resultados a serem apresentados. Dado um conjunto de amostras de exemplos do padrão a representar, é feito uma análise estat´ıstica que as define e separa em grupos ou classes. A eficácia da representação é determinada através da classificação da separação das amostras. No final, dado um conjunto de padrões de treino de cada classe, o objectivo é estabelecer fronteiras de decisão para o contexto do problema. Exemplos:

– Visão automática - processamento de imagens de satélite, robótica e identificação de pessoas através de fotos e impressões digitais [8];

– Reconhecimento de carácteres – a esta área estão associados os sistemas OCR (Optical Character Recognition). Estes sistemas detectam variações de luz, constroem matrizes que depois, através de software de reconhecimento de padrões, traduzem em carácteres. Nesta área também se aplica a escrita à mão e já existem canetas que detectam o que o utilizador escreve e armazenam a informação em memória [8];

– Sistema de imageologia – sistemas que ajudam os médicos a reconhecer doenças através da análise de imagens [8];

– Reconhecimento da fala – a fala é o meio mais natural que o ser humano usa para comunicar pelo que se têm vindo a desenvolver sistemas que compreen-dam a fala e a traduzam em acções. Isto pode, por exemplo, ser usado para aumentar a eficácia da produção em ambientes complexos ou ajudar pessoas amputadas a interagir com o sistema. Ao reconhecimento da fala está implici-tamente ligado o processamento de sinal e reconhecimento de voz [8];

• reconhecimento de padrões sintáctico - reconhecimento de natureza estrutural e hierárquica, onde um padrão é formado por um conjunto de primitivas e relações entre elas, ou seja, é tida em conta a informação estrutural da inter-relação entre o-bjectos e não de oo-bjectos isolados. Normalmente esta estruturação é feita em árvore, sendo as suas folhas os elementos mais simples (primitivas) tornando-se cada vez mais complexo à medida que nos aproximamos da raiz até formar o padrão com-pleto. Exemplos:

– Tradutor de textos em v´arias l´ınguas – sistemas que com base em gram´aticas interpretam textos sintacticamente e os traduzem para outras l´ınguas.

(20)

– Gerador de Sumários – sistemas que interpretam textos e os recriam de forma condensada mantendo ao máximo a semântica do texto.

• reconhecimento de padrões com redes neuronais - pode ser visto como um me-lhoramento do reconhecimento de padrões estat´ıstico, no sentido em que, com redes neuronais, é poss´ıvel aplicar métodos de aprendizagem. É feito um estabelecimento de conexões com camadas intermediárias de neurónios artificiais entre os valores de todas as caracter´ısticas que definem os padrões e todas as classes de objectos que são consideradas como camada de sa´ıda. O treino da rede é feito corrigindo os pesos nas conexões. Exemplos

– reconhecimento de faces – as redes neuronais são aplicadas no reconhecimento de faces pela sua facilidade de aprendizagem e treino. Um dos métodos mais significantes de reconhecimento de faces foi proposto por Rowley et. al [9] onde é usada uma rede neuronal multi-n´ıvel que é treinada para modelos de face e não-face [10].

– reconhecimento de voz – os sistemas de reconhecimento de voz utilizam re-des neuronais e são executados em 4 passos principais: digitalização da fala, computação de caracter´ısticas do dom´ınio espectral, identificação de carac-ter´ısticas fonéticas básicas usando uma rede neuronal e finalmente associação das caracter´ısticas encontradas no passo anterior com palavras [10].

Paralelamente com o estudo de reconhecimento de padrões surgem normalmente os conceitos de sistemas de aprendizagem supervisionados(que serão abordados no cap´ıtulo 4), que são sistemas que “aprendem” usando dados de treino e que a partir da´ı conseguem deduzir de uma forma mais eficaz informação que não esteja expl´ıcita no conjunto de dados; e sistemas de aprendizagem não-supervisionados, em que a máquina se limita a representar os dados que lhe são fornecidos para tomadas de decisão, prever futuros in-putse comunicá-los a outras máquinas, não obtendo qualquer feedback sobre a validade dessa representação.

Na Portugalmail - Comunicações, S.A. são também adoptados alguns métodos de reconhecimento de padrões como é o caso da filtragem de spam e geração de estat´ısticas para fins de gestão.

2.2.3 Text Mining

A expressão text mining refere-se à descoberta de informação/conhecimento previa-mente desconhecida que pode ser encontrada em conjuntos de documentos.

Desde 1999 que o desenvolvimento nesta área tem aumentado [11]. Isto deve-se ao facto de haver uma maior necessidade de gestão da informação que reside no vasto

(21)

conjunto de documentos de texto dispon´ıveis, como por exemplo, páginas web, artigos, repositórios e emails. Este tipo de informação distingue-se da informação residente nas bases de dados pela sua falta de estruturação. É, aliás, esta a diferença entre text min-ing e data mining. Data mining é um processo de extracção de informação impl´ıcita, desconhecida e potencialmente útil de dados estruturados, escondidos ou mesmo desco-nhecidos [12].

O text mining funciona à base da descoberta de padrões em textos, ou seja, da des-coberta de relações entre tópicos, palavras, ou frases, que se repetem ao longo de vários documentos diferentes. Estes padrões são definidos através do número de vezes que as palavras aparecem juntas no texto. Quanto maior for o número de ocorrências, maior a ligação entre essas palavras, o que leva à dedução de alguns conceitos.

Existem duas abordagens poss´ıveis em text mining: abordagem estat´ıstica (Bayesiana) e a abordagem da assunção de padrões.

A abordagem estat´ıstica é uma abordagem indutiva, ou seja, quanto maior for o número de amostras, maior é o número de relações e consequentemente melhor é o resultado pois as relações são mais sólidas e reais. A esta abordagem dá-se também o nome de abor-dagem Bayesiana pois tem como base o teorema de Bayes. Este teorema relaciona a probabilidade condicional de dois eventos aleatórios e é muito usado para calcular proba-bilidades à posteriori com base em observações. Em estat´ıstica, no entanto, existe alguma incerteza sobre a aplicação deste teorema relativamente a um outro teorema designado de teorema frequentista. A diferença entre eles é que o frequentista calcula probabilidades de eventos com base numa frequência de ocorrência ou subconjuntos de populações como porções de um todo, ao passo que o Bayesiano calcula probabilidades baseado em crenças e graus de incerteza [13]. Este assunto será explicado mais em pormenor na secção4.2.1. A abordagem da assunção de padrões (também designada abordagem usando um agente treinado) é uma abordagem dedutiva pois o processo é iniciado com uma assunção e a partir da´ı são pesquisados casos na amostra de dados que corroborem essa assunção.

A abordagem estat´ıstica funciona melhor quando o conjunto de dados é estruturado, ao passo que para casos em que os dados não estão estruturados a segunda abordagem é mais eficiente.

Em termos de quantidade de dados a processar, segundo Newman [14], a abordagem estat´ıstica tem um potencial de analisar todo o conteúdo de um registo, no entanto o tamanho da amostra de documentos é normalmente menor do que 50,000 registos. No caso da abordagem usando um agente treinado, visto que apenas pesquisa padrões pré-determinados e só tem de analisar fracções de texto, é poss´ıvel processar milhões de registos. Isto significa que a segunda abordagem, (agente treinado), é normalmente usada ao n´ıvel de produção de dados e a primeira abordagem, estat´ıstica, é usada ao n´ıvel do utilizador final [14].

(22)

2.3 Trabalhos Desenvolvidos

Estão já a ser feitos esforços no sentido de tornar o conceito de email inteligente cada vez mais real e presente. À medida que o conceito vai sendo estudado, vão sendo desenvolvidas funcionalidades que apoiam o utilizador nas suas tarefas diárias envolvendo o email. Desde a produção de sumários até à detecção de falta de anexo numa mensagem, são cada vez mais as funcionalidades que nos aproximam da realidade de virmos a ter um email que nos auxilie desde as tarefas mais básicas até às mais complexas ou aborrecidas de realizar. De seguida, serão apresentadas algumas das funcionalidades referidas, cujos estudos indicam ter resultados bastante positivos e estão relaccionadas com o tema deste projecto.

2.3.1 Previs˜ao de resposta

De todos os tipos de emails que circulam nas caixas de correio, muitos deles são emails que, dado o seu contexto, necessitam de uma resposta por parte do utilizador. O mundo do negócio é um excelente exemplo disso, em que a taxa de recepção deste tipo de emails é elevada, pelo que o tempo para verificação, selecção e resposta destas mensagens pode ser bastante grande. Deste modo, Dredze et. al [15] propõe uma solução que passa por prever e etiquetar emails que precisem de uma resposta e quais os que já foram respondidos. O método adoptado utiliza dados do assunto da mensagem, um conjunto de palavras chave que indiciem a necessidade de resposta, o papel que os destinatários do email têm na mensagem (CC, BCC, TO), as relações entre eles, a existência de datas e horas no corpo da mensagem, a forma como é dirigido o email (“Caro João,” ou “Olá Teresa,”) e detecção de questões, de forma a minimizar o erro da detecção.

O resultado deste estudo indicou que o modelo consegue um resultado muito pr´oximo da capacidade humana [2,16].

2.3.2 Sum´arios

Uma outra funcionalidade desenvolvida por Dredze et. al foi a sumarização de emails por via de palavras-chave. O autor afirma que deste modo o utilizador tem acesso a uma informação complementar que em alguns casos de teste se revelou mais esclarecedora que o próprio assunto. Segundo Dredze et. al, uma boa palavra-chave para sumariar um email deve ser espec´ıfica o suficiente para descrever a mensagem e ao mesmo tempo comum a vários emails, estar associada a conceitos coerentes com o utilizador e ser representa-tiva do conceito do email permitindo que o utilizador possa tomar decisões em relação à mensagem. De modo a balizar estes requisitos é necessário definir limites. Para definir os limites superior e inferir são usados dois modelos conceptuais: LSA (Latent Semantic Analysis) - uma técnica de processamento de linguagem natural que analisa as relações

(23)

entre um conjunto de documentos e os termos que eles contêm produzindo um conjunto de conceitos relacionados com os documentos e os termos - e LDA (Latent Dirichlet Allocation) - um modelo hierárquico probabil´ıstico Bayesiano a três n´ıveis que permite criar uma representação expl´ıcita de um documento usando a probabilidade do facto de um determinado tópico nesse documento ser relevante ou não [17]. As palavras chave foram geradas usando TF-IDF (Term Frequency-Inverse Document Frequency), uma me-dida estat´ıstica usada para avaliar a importância de uma palavra para um documento numa colecção [18].

2.3.3 Falta de anexo

Uma das formas mais comuns de trocar ficheiros é através do email usando os anexos. No entanto, acontece imensas vezes o utilizador esquecer-se de anexar o ficheiro antes de enviar a mensagem. Já existem várias soluções para este problema, desde fazer um simples highlight do botão para anexar o ficheiro até soluções mais complexas como detectar e alertar o utilizador que o anexo está em falta. Esta última abordagem foi já estudada e desenvolvida. Dredze et. al modelou um sistema de previsão de anexo [19,16] que se baseia num conjunto de factores tais como:

• conteúdo da mensagem (posição de palavras-chave no texto e tamanho do texto); • destinatários do email;

• padr˜ao do comportamento do utilizador (reenvio de emails repetidos com e sem anexo);

• hist´orico da percentagem de vezes que foram enviados emails para determinados destinat´arios com anexo;

2.3.4 Detecc¸˜ao de Spam

Nos últimos anos o spam tornou-se um dos maiores problemas para a sustentabilidade da internet [20]. A quantidade de spam tem vindo a aumentar à medida que surgem novas formas de divulgar informação (email, redes sociais, web sites, blogs, motores de busca) o que levou ao desenvolvimento de novas técnicas de anti-spam. Existem várias razões pelas quais o spam aumenta de dia para dia:

• Geração de receitas – os spammers criam conteúdo sintético nas páginas web e usando o AdSense conseguem gerar receitas através das visitas;

• Aumento do ranking nos motores de busca – incorporação de técnicas de optimização para motores de pesquisa com o objectivo de melhorar o ranking do site e assim au-mentar o tráfego aumentando também as receitas;

(24)

• Promoção de produtos e serviços – os spammers são pagos por empresas para promoção dos seus produtos. Normalmente isto é feito através dos emails, fóruns e comentários de blogs.

• Roubo de informação – instalação il´ıcita de programas nos computadores dos uti-lizadores que provocam o aparecimento de pop-ups com publicidade, ou o roubo de informação com o endereço de email;

• Phishing – roubo de informac¸˜ao fazendo-se passar por uma entidade leg´ıtima (caso dos bancos, por exemplo);

Existem diversas técnicas para combater o spam, no entanto apesar de algumas serem bastante boas, existe sempre, ou quase sempre, uma forma de contornar os detectores de spam. Basta que os spammers tenham acesso à informação de como estas ferramentas funcionam. Alguns exemplos de software de combate ao spam são:

• HoneySpam que simula ser uma v´ıtima de spam real para obter o máximo de informação sobre o spammer e assim consiga bloqueá-lo;

• o Phonetic String Matching que usa quatro filtros (normalização, desambiguação, comparação de strings aproximadas, módulo de composição de regras) para sinalizar um email como sendo spam ou não;

• ProMail que usa os meta-dados do email para detectar o endereço, o IP, entre outras caracter´ısticas e a partir da´ı constrói um perfil de utilizador criando um grafo e calculando se o email é spam ou não;

• Zombie based Approach detecta emails enviados por spam-bots comparando o pro-tocolo SMTP do email com o propro-tocolo RFC standard;

• SMTP Logs Mining Approach que é um método de aprendizagem automática que extrai caracter´ısticas dos logs do servidor SMTP e constrói um grafo calculando pontuações para cada nó e a partir da´ı classifica os emails como sendo spam ou não; Cada uma destas ferramentas tem os seus benef´ıcios e falhas pelo que nenhuma é infal´ıvel, não deixando de ser uma preciosa ajuda.

Assim como as ferramentas de anti-spam evolu´ıram, o próprio spam também evoluiu mudando de formato passando a conter imagens. Dessa forma a sua detecção torna-se bem mais complicada. Os sistemas OCR são capazes de extrair o texto de imagens mas revelam-se ineficazes se os spammers colocarem ru´ıdo nas imagens. Como apoio ao OCR surgiram ferramentas que detectam o ru´ıdo das imagens, que lêem os cabeçalhos dos ficheiros das imagens em busca de informação útil e que interpretam o histograma de cores da própria imagem de forma a tornar mais eficaz a detecção de spam. No entanto este campo está ainda pouco desenvolvido [20].

(25)

2.4 Funcionalidades da Portugalmail

Neste momento, a Portugalmail utiliza o reconhecimento de padrões no antispam uti-lizando todos os exemplos de software listados na secção anterior com a excepção o Hon-eySpam. Utiliza também o reconhecimento de padrões para fins estat´ısticos que servem tanto os interesses dos clientes profissionais como os da própria empresa. Utiliza um conjunto de ferramentas que torna poss´ıvel a gestão do tráfego de mensagens nos servi-dores, listas de espera, taxa de armazenamento dos discos e gestão das contas dos clientes. Dovecot (servidor de IMAP e POP3), Postfix (agente de transferência de emails) e Amavis (um scanner de correio electrónico) são as tecnologias utilizadas para efectuar o proces-samento do email. O Perl é usado para criar scripts que analisam e detectam padrões dos logs do email, extraindo informação que é passada para o Cacti, uma ferramenta de visualização gráfica de dados.

2.5 Sum´ario do Cap´ıtulo

Com este cap´ıtulo pretendeu-se fazer uma introdução ao conceito de email inteligente e reconhecimento de padrões relacionando-os entre si. Foram apresentadas as barreiras e algumas das soluções existentes nesta área bem como trabalhos já desenvolvidos que aproximam cada vez mais o conceito de email inteligente da realidade. Finalmente são dadas a conhecer os tipos de actividades que a Portugalmail exerce nesta área.

(26)

Projecto

Este cap´ıtulo retrata a fase de planeamento do projecto. Nesta fase foi feito um levan-tamento de requisitos, estudo de tecnologias existentes, definição de tecnologias a utilizar e esboço do planeamento de tarefas a realizar. A concepção de ideias foi feita através de uma sessão de brainstorming onde foram propostas funcionalidades a desenvolver. Foi também realizado um questionário para obter feedback dos utilizadores. Seguiu-se um processo de avaliação dos resultados obtidos. Finalmente foi levado a cabo um estudo de tecnologias a utilizar para o desenvolvimento das funcionalidades.

3.1 Concepc¸˜ao de Ideias

A concepção de ideias é, provavelmente, a fase mais importante de qualquer pro-jecto. Nesta fase, o objectivo é definir, de uma forma minimamente concreta, em que vai consistir todo o projecto, quais as tarefas a realizar, em que consistem, quem as vai re-alizar, quem é o responsável, prazos para o in´ıcio e fim de cada tarefa, dependências entre tarefas e outras questões que possam ser relevantes dependendo do projecto em questão. Para este caso espec´ıfico foram utilizadas duas metodologias que decorreram ao mesmo tempo: uma sessão de brainstorming com alguns elementos da equipa da Portugalmail e um questionário para obter algum feedback sobre as necessidades dos utilizadores de email.

3.1.1 Brainstorming

Brainstorming é uma técnica de criatividade criada por Alex Osborn [21] muito uti-lizada em situações em que é necessário produzir um grande número de ideias para um de-terminado problema com o objectivo de chegar a uma determinada solução. Esta técnica propõe que um conjunto de pessoas, idealmente entre 8 e 12 pessoas, com experiências

(27)

e competências diferentes, se reúnam num ambiente informal e relaxado, para discutir ideias sobre um determinado problema com o objectivo de chegar a uma solução. Inicial-mente é dado a conhecer qual o problema em questão e depois vão sendo sugeridas ideias para a sua resolução. Nenhuma ideia é descartada e cabe ao “secretário”, o elemento que é responsável por conduzir a sessão, apontar as ideias que vão surgindo. Uma das regras de ouro desta técnica é que nenhuma ideia pode ser criticada, de forma a não intimidar os participantes na sua criatividade, para que da´ı surjam mais ideias.

Figura 3.1: Brainstorming do Projecto

Foi realizada uma sessão de brainstorming na Portugalmail com o objectivo de re-alizar um levantamento de poss´ıveis funcionalidades a implementar neste projecto. Esta sessão teve a duração de um dia e contou com a participação de 6 elementos da Portugal-mail: Felipe Costa, Rui Carneiro, Gonçalo Queirós, Miguel Lima, Nuno Lopes e Ricardo Mestre. O “secretário” encarregue de conduzir a sessão foi Felipe Costa, pois é o ele-mento que possui maior experiência neste tipo de sessões e é também o responsável pelo produto onde as funcionalidades vão ser implementadas. Foram utilizados marcadores e post-itspara fazer o apontamento das ideias que iam surgindo. No in´ıcio da sessão foi feita uma breve introdução ao problema e dado a conhecer o que se pretendia alcançar, qual a realidade actual sobre o tema, quais as soluções já existentes e finalmente quais as neces-sidades dos utilizadores de acordo com estudos já realizados por outros investigadores.

(28)

Foi dada também uma breve explicação sobre o conceito pretendido para a plataforma e como este projecto se deveria integrar. De seguida, foram lançados vários desafios onde, para um dado cenário (por exemplo, “Funcionalidades para pessoas que enviam muitos anexos”), era pedido a cada participante para escrever as suas sugestões, uma por cada post-it, e partilhá-las no fim do tempo estipulado (normalmente mini-sessões de 5 minu-tos). O resultado final encontra-se na figura3.1.

No final da sessão de brainstorming o resultado não podia ser mais positivo. Foram recolhidas perto de 100 funcionalidades diferentes, algumas bastante interessantes. As-sim sendo, era tempo de organizar os dados obtidos e filtrar, agrupar e ordenar por pri-oridades as funcionalidades de maior interesse quer para a Portugalmail quer para a tese em si. Realizou-se uma reunião com os responsáveis da empresa para discutir e ajustar pormenores e obter o aval para seguir para a fase seguinte.

Foram ent˜ao criadas 7 categorias: “Inbox”, “Escrever email”, “Leitura de email”, “Contactos”, “Eventos”, “Estat´ısticas” e finalmente “Outras ideias” (ver figura3.2). A vers˜ao expandida deste diagrama encontra-se no anexoA.

Figura 3.2: Funcionalidades por Categorias

Assim sendo, a lista de funcionalidades definida para este projecto foi a seguinte: • Keywords detector; • Sumarização de conteúdo; • Tradução de linguagem SMS; • Localização geográfica; • Password box; • Youtube preview; • Flickr preview; • Detecção de eventos;

Cada funcionalidade ser´a explicada com mais pormenor nos cap´ıtulos4e5.

Tendo j´a um conjunto de funcionalidades listado deu-se in´ıcio ao levantamento de resultados do question´ario.

(29)

3.1.2 Question´ario

Os questionários são uma forma bastante eficaz de conseguir perceber as necessidades e opiniões do público alvo relativamente a um determinado tema. No entanto, para este tipo de projectos, os questionários revelam um problema. A fase ideal para realizar um questionário num projecto de quatro meses é precisamente na fase de concepção de ideias, onde interessa saber quais as necessidades dos utilizadores, para planear a melhor forma de satisfazer essas necessidades e definir o que se irá desenvolver. No entanto, é ao mesmo tempo a pior fase pois o próprio conceito em que se pretende trabalhar ainda não está bem definido nesta altura. Por esse motivo, a realização de um questionário não é trivial o que implica um cuidado extra relativamente à informação que é pedida.

A par da realização da sessão de brainstorming conduziu-se um questionário para obter uma opinião dos utilizadores sobre qual o tipo de emails que mais circulam nas suas caixas de correio electrónico e qual o tipo de actividades que mais efectuam enquanto navegam na internet. Este questionário foi composto por 10 questões e um espaço de escrita livre. Foram obtidas 41 respostas. O questionário encontra-se no anexoB. Um versão online encontra-se dispon´ıvel emhttp://tiny.cc/questionario. A maio-ria da população que respondeu a este questionário são jovens estudantes com idades compreendidas entre os 20 e os 24 anos, e portanto fazendo uso frequente do email.

Antes de analisar os gráficos é relevante dizer que as questões 1 e 2 (figuras3.3e3.4) são de escolha múltipla pelo que não é incorrecto que a soma das percentagens ultrapasse os 100% e que as questões 3 e 4 (figuras3.5e3.6) respeitam uma escala que varia entre 1 e 4 cujos significados são “1 - Nenhuma”, “2 - Pouca”, “3 - Alguma” e “4 - Muita”.

Para a questão “Quais os tipos de emails que recebe na sua caixa de email?”, 93% dos inquiridos respondeu “Emails com anexos”, 59% responderam “SPAM” e “Marcações de eventos” (ver figura 3.3). Para a questão “Quais os tipos de emails costuma enviar ou acções que costuma realizar na web?”, 88% dos inquiridos respondeu “Emails com anexos” e 57% respondeu “Marcações de eventos” (ver figura3.4).

(30)

Figura 3.4: Quais os tipos de emails costuma enviar ou acc¸˜oes que costuma realizar na web?

Com base nos resultados das respostas anteriores, foram analisadas a questão 3 e 4 para saber com que frequência enviam emails com anexo e/ou com marcação de eventos. Para a questão “Na sua actividade diária, com que frequência envia emails com anexo?”, 54% responderam “Alguma” (ver figura 3.5) e na questão “Na sua actividade diária, com que frequência realiza marcações de eventos (reuniões, encontros sociais, etc)?” 45% responderam “Pouca” (ver figura3.6).

Figura 3.5: Na sua actividade di´aria, com que frequˆencia envia emails com anexo?

(31)

3.1.3 Conclus˜oes

Segundo os resultados obtidos no questionário é poss´ıvel concluir que o tipo de emails que mais circula nas caixas de correio electrónico dos inquiridos contém anexos e eventos, sendo que os emails com anexos são enviados e recebidos com maior frequência do que os restantes. Assim sendo, a criação de funcionalidades que tenham alguma relação com este tipo de emails de forma a ajudar o utilizador quer na tarefa de leitura quer de envio e até mesmo de pesquisa e gestão de emails, poderá ser uma mais valia para os clientes de email da Portugalmail.

O brainstorming foi, possivelmente, a melhor forma de pegar neste projecto para que, numa altura ainda prematura, j´a houvesse uma ideia consistente do que se pretendia.

3.2 Definic¸˜ao do Projecto

Terminada a fase de concepção de ideias e soluções, é tempo de realizar um estudo das tecnologias e definir um plano de tarefas.

3.2.1 Definic¸˜ao das Tecnologias

A definição de tecnologias é feita depois da concepção do projecto para que não haja quaisquer tipos de limitações que ponham em causa a criatividade do mesmo. Agora, fazendo um estudo de comparação entre tecnologias diferentes, basta verificar se estão à altura do projecto tanto a n´ıvel de desenvolvimento como de performance.

Para melhor compreensão, quer do ambiente, quer de limitações tecnológicas para o projecto, foi feito um estudo da plataforma onde serão implementadas as funcionalidades deste projecto.

Como já foi dito na secção 1.1, está a ser desenvolvida uma nova plataforma web para serviço de email. Esta aplicação segue uma arquitectura LAPP ( Linux, Apache, PostgreSQL, PHP ), que é normalmente composta por um conjunto de software open source gratuito e é usada para correr web sites ou servidores dinâmicos. A aplicação está assente sobre a framework Horde. Esta framework é baseada em PHP e permite a utilização de um considerável número de funcionalidades.

Tendo em conta as ferramentas acima referidas, e outras também utilizadas na Por-tugalmail, foi tido em consideração apenas software opensource e o mais compat´ıvel poss´ıvel com a nova plataforma de webmail. Foram comparadas três linguagens: Perl, Java e PHP. Após alguma leitura sobre as capacidades de cada uma a n´ıvel de expressões regulares, foi feito um script com um simples em que o único objectivo passava por realizar um parsing de um conjunto de ficheiros, utilizando expressões regulares, de-volvendo o mesmo resultado no menor tempo poss´ıvel. O uso de expressões regulares para este teste justifica-se pois este é um método utilizado para reconhecer padrões de

(32)

informação em textos, e é sobre isso que se baseia o trabalho deste projecto. A amostra para testes consistiu num conjunto de 44771 ficheiros de texto. Os resultados obtidos encontra-se na tabela e gráfico seguintes.

Figura 3.7: Comparac¸˜ao de Tecnologias

Tabela 3.1: Resultados da Comparac¸˜ao de Tecnologias

Java Perl PHP real 1.478 ms 0.769 ms 2.981 ms user 1.297 ms 0.677 ms 2.691 ms sys 0.123 ms 0.080 ms 0.103 ms

real Tempo desde o in´ıcio at´e ao fim da chamada do processo, incluindo as fatias de tempo de outros processos e o tempo que o processo se mant´em bloqueado.

user Tempo que o CPU usa para executar o processo. Os tempo de execução de outros processos ou tempo de bloqueio não estão inclu´ıdos.

sys Tempo que o CPU usa no kernel entre processos. Como no user este tempo diz respeito apenas ao processo.

Para atingir estes valores foi utilizada a função “time” do sistema operativo Linux. Foram feitos 10 testes para cada linguagem. Os valores da tabela são a média dos resulta-dos obtiresulta-dos depois de terem sido retiraresulta-dos o melhor e o pior resultado de cada. As tabelas completas encontram-se no anexoC.

(33)

Tendo em conta os resultados obtidos, conclui-se que o Perl é a linguagem mais in-dicada para realizar parsing de texto pois produz os mesmos resultados que as outras duas linguagens em menos de metade do tempo relativamente ao Java e quatro vezes mais rápido que o PHP. Acrescido a estes resultados, junta-se o facto de Perl ser uma lin-guagem cuja curva de aprendizagem é muito pequena o que, de certa forma, é uma mais valia para o sucesso deste projecto.

3.2.2 Levantamento de Requisitos

Tendo em conta os objectivos desta tese e os interesses da Portugalmail, definiram-se os seguintes requisitos:

• Reconhecer informação relativa a eventos calendarizáveis utilizando algoritmos de classificação e expressões regulares;

• Tratar a informação reconhecida tornando-se mais percept´ıvel para o utilizador e apresentá-la no ecrã;

• Permitir que o utilizador edite a informação reconhecida e a adicione directamente na sua agenda através da interface desenvolvida;

• Reconhecer links do Youtube e apresentar os v´ıdeos no ecr˜a;

• Reconhecer links de fotografias e álbuns do Flickr e apresentá-los no ecrã;

3.3 Sum´ario do Cap´ıtulo

Neste cap´ıtulo foi descrito o modo como foi conduzida uma sessão de brainstorming da qual resultaram cerca de 100 ideias para funcionalidades a implementar na plataforma de webmail. Fez-se um levantamento dos resultados de um questionário concluindo-se que os emails que a maioria dos inquiridos circula, contém anexos e eventos. Foi feita ainda uma comparação de tecnologias para decidir que ferramentas utilizar para o desen-volvimento do projecto concluindo-se que o Perl é a linguagem mais indicada. Finalmente foi definido um plano de desenvolvimento de tarefas que se encontra no anexoD.

(34)

Detecc¸˜ao de Eventos num Email

Este cap´ıtulo descreve o desenvolvimento da ferramenta “Detecção de eventos num email”. Começa-se por contextualizar a funcionalidade nos objectivos do projecto e são dadas algumas definições sobre o Teorema de Bayes, que serviu de base para a sua construção. O algoritmo bayesiano por si só não chega para atingir um bom resultado pelo que foi necessário criar um conjunto de ferramentas que o suportem.

4.1 Conceito

A marcação de eventos através do email é uma tarefa bastante comum hoje em dia, e tal já foi confirmado no cap´ıtulo anterior através da figura 3.6. Com a facilidade de comunicação que existe actualmente é poss´ıvel estar sempre a par das ocorrências. No âmbito empresarial, e não só, a necessidade de obter a informação na hora é crucial para o bom desempenho dos funcionários. Um bom exemplo disso é a marcação de reuniões e gestão da agenda profissional. Sendo o email, o meio formal mais rápido dispon´ıvel, surgiu a necessidade de gerir estes e outros tipos de eventos de uma forma mais simples e rápida. E foi com base neste problema que surgiu a ideia de desenvolver uma funcionali-dade para a plataforma de webmail que fosse capaz de interpretar a informação recebida pelos utilizadores, processá-la e apresentá-la de uma forma mais simples e directa, de modo que a gestão de informação se torne mais simples e expl´ıcita.

A detecção de eventos num email é uma das várias funcionalidades desenvolvidas neste projecto e tem como objectivo reconhecer padrões que indiquem a presença de eventos num email e apresentar esses eventos numa interface que torne expl´ıcita a data, hora e o evento em si, e que, através de um clique, transfira a informação desse evento para a agenda do utilizador sem que este tenha o trabalho de o criar manualmente. A ideia

(35)

´e criar uma ponte entre o email e a agenda para que, desta forma, o utilizador n˜ao precise de memorizar o evento para depois o adicionar na agenda.

O analisador de informação contida no email é chamado quando o utilizador pretende abrir um email. Seleccionado o email, o analisador recebe a informação respectiva e inicia o processo de reconhecimento. Quando a plataforma recebe os resultados gera a página com toda a informação (do email e do analisador). Pretende-se que, qualquer que seja a informação reconhecida pelo analisador, seja apresentada da forma mais subtil poss´ıvel. Esta ferramenta tem um papel de apoio na plataforma e não um papel principal. Quando o utilizador abre um email, parte-se do princ´ıpio que o seu objectivo é lê-lo, sendo que o excesso de informação no ecrã irá dispersá-lo. Em suma, a informação está lá, mas não de uma forma invasiva. No final, cabe ao utilizador decidir se pretende tirar partido dos recursos que lhe são disponibilizados.

Esta funcionalidade já foi encontrada em funcionamento na plataforma de email da Google, o Gmail, no entanto, após alguns testes verificou-se que o seu estado de desen-volvimento é ainda muito prematuro pois a ferramenta revelou-se bastante fal´ıvel. Esta funcionalidade propõe esse mesmo conceito, com a diferença que será visualizada no contexto da secretária virtual.

O reconhecimento de padrões é uma área bastante complexa dependendo do tema e contexto com que se está a trabalhar. Neste projecto, o foco principal são os emails, mais especificamente a informação contida neles. Os emails têm uma particularidade que torna este processo ainda mais complexo; o facto de serem completamente livres de regras, torna o contexto do conteúdo muito dif´ıcil de analisar. Os emails não são neces-sariamente formais e nessas condições torna-se muito dif´ıcil reconhecer padrões. Um outro problema é que não existe um dom´ınio espec´ıfico, ou seja, nem todos os emails falam sobre o mesmo tema (medicina, futebol, negócios, entre outros) podendo abordar vários dom´ınios, adoptam vários formatos e são escritos em várias l´ınguas não existindo também nenhum tipo de regras gramaticais (por vezes os textos são escritos com abre-viaturas e calão).

Tendo em conta este cenário, foram feitas bastantes pesquisas em livros e artigos cient´ıficos, com o objectivo de encontrar casos com problemas semelhantes no mesmo contexto (os emails) e estudar as soluções propostas. Chegou-se à conclusão que, para situações como esta, não existe nem é poss´ıvel atingir uma solução infal´ıvel. No en-tanto, existem algoritmos de aprendizagem e classificação, como é o caso do algoritmo Bayesiano, que, tal como será explicado na secção seguinte, utilizam casos previamente avaliados para conseguir classificar textos com um determinado grau de certeza.

(36)

4.2 Teorema de Bayes

4.2.1 Introdução Teórica

Bayes, apesar de nunca ter exercido oficialmente a carreira de matemático, possu´ıa um amplo conhecimento de geometria e dominava todas as áreas da matemática e filosofia da sua época. O primeiro artigo de Bayes, foi publicado com o t´ıtulo “Ensaio Voltado para Solução de um Problema na Doutrina do Acaso” e explicava a forma como ele abor-dava os problemas propostos pelos matemáticos anteriores a ele. O trabalho passou a ser conhecido como “Teorema de Bayes”, uma técnica de estat´ıstica e estimativa que revolu-cionou uma das leis fundamentais da matemática [22].

O teorema de Bayes tem uma particularidade que ainda hoje gera bastante controvérsia entre os matemáticos mais conservadores, que é o seu carácter subjectivo, ou seja, existe uma opinião sobre os resultados baseada na quantidade de informação relativa ao facto de um evento ocorrer ou não. Essa informação influencia definitivamente os resultados da previsão de um evento.

Hoje em dia o teorema de Bayes é aplicado em quase todas as áreas do conhecimento e pesquisas cient´ıficas, desde as autoridades de saúde para prever o risco de epidemias até às economias mundiais para prever a inflação.

Os resultados obtidos a partir do cálculo da probabilidade variam entre 0 e 1, sendo 0 um evento imposs´ıvel de ocorrer, e 1 um evento certo de ocorrer. A fórmula para o cálculo da probabilidade segundo a lei de Bayes obtém-se seguindo um conjunto de leis da probabilidade. De acordo com a definição da probabilidade condicional, a probabilidade de um evento A dado B é:

P(A | B) =P(A T

B)

P(B) (4.1)

Da mesma forma, a probabilidade de um evento B dado A traduz-se na seguinte ex-press˜ao:

P(B | A) =P(A T

B)

P(A) (4.2)

Combinado as duas expressões anteriores obtemos a seguinte equação:

P(A | B)P(B) = P(A\B) = P(B | A)P(A) (4.3)

Finalmente se ambos os lados forem divididos por P(B), sabendo que esta n˜ao ´e 0, obtem-se o teorema de Bayes:

P(A | B) = P(A T B) P(B) = P(B | A)P(A) P(B) (4.4)

(37)

P(A | B) = P(B | A)P(A)

P(B) (4.5)

onde,

P(A) : probabilidade à priori de A sem o conhecimento de B P(A | B) : probabilidade condicional (à posteriori) de A, dado B P(B | A) : probabilidade condicional (à posteriori) de B, dado A P(B) : probabilidade à priori de B sem o conhecimento de A

4.2.2 Da Teoria `a Pr´atica

Teoricamente, o teorema de Bayes encaixa perfeitamente no problema que se pretende resolver. Detectar eventos num email cujo conteúdo é demasiado variável para reconhecer padrões exige que este campo da matemática entre em acção. É certo que utilizando probabilidades, os resultados serão, em termos lógicos e racionais, os mais correctos, no entanto, isto não significa que na prática seja assim tão linear.

A aplicação do Teorema de Bayes na informática é feita através do algoritmo Bayesiano. Este algoritmo simula o cálculo da probabilidade de um evento ocorrer, dada uma base de conhecimento com eventos devidamente classificados. A performance deste algoritmo é directamente proporcional ao treino, ou seja, quanto mais informação houver sobre a classificação de eventos, maior é a probabilidade do algoritmo calcular com eficiência a que grupo pertence determinado email. Um exemplo prático da aplicação deste algoritmo pode ser encontrado em software anti-spam.

Neste projecto, o algoritmo Bayesiano será utilizado para classificar emails que contém ou não eventos calendarizáveis. Para isso foi necessário reunir uma amostra significativa de emails e classificá-los manualmente em dois grupos: “Email com evento” e “Email sem evento”. Para obter esta amostra foram utilizados emails do dataset público da En-ron. Este é o dataset utilizado normalmente para trabalhos relacionados com emails pois contém uma parte da correspondência electrónica de várias contas de antigos fun-cionários da empresa Norte Americana Enron. De seguida, foi utilizado um módulo em Perl (AI::Categorizer), que se relevou bastante completo e fácil de usar permitindo, com base numa amostra devidamente classificada, calcular a probabilidade de um determi-nado texto pertencer a um dos grupos acima referidos. A implementação do algoritmo Bayesiano deste módulo baseia-se na frequência de palavras da base de conhecimento para obter informação sobre os factos e a partir da´ı realizar o cálculo de acordo com o Teorema Bayesiano.

(38)

Foi criado um módulo que, recebendo o conteúdo de um email como input, o classifica utilizado o módulo AI::Categorizer e analisa os resultados obtidos. Dependendo do re-sultado, o algoritmo permite também que seja feita uma aprendizagem supervisionada,já referida no cap´ıtulo2, ou seja, se o utilizador não concordar com o resultado do algoritmo pode sempre classificá-lo manualmente o que faz com que sejam ajustados os pesos dos casos de treino da base de conhecimento. Esta base de conhecimento encontra-se divi-dida em dois ficheiros de texto, um para o grupo “Email com evento” e outro para o grupo “Email sem evento”.

4.3 M´odulos Desenvolvidos

Para servir de apoio ao algoritmo Bayesiano explicado na secção anterior, surgiu a ne-cessidade de criar um conjunto de módulos que filtrem, organizem e tratem a informação de modo a que o resultado final seja o mais percept´ıvel poss´ıvel para o utilizador. De seguida serão explicados os módulos que estão directamente relacionados com a detecção de eventos, de que forma ajudam o algoritmo bayesiano a gerar melhores resultados e de como devem esses resultados ser apresentados.

4.3.1 Dicion´ario

O Dicionário é um módulo que foi criado com o objectivo de apoiar alguns dos módulos desenvolvidos em certas tarefas que necessitem de um repositório de vocabulário associado a valores, expressões, palavras, ou outros tipos de informação relevante. Este módulo é bastante simples. Tem apenas duas funções cujo objectivo é recolher conjun-tos de dados de um repositório e transformar essa informação em expressões regulares. O repositório obedece a um determinado formato que não deve ser violado para que o módulo o saiba interpretar. Podem constar vários contextos no mesmo repositório e cada contexto consiste num conjunto de pares chave-valor separados por uma v´ırgula, existindo apenas um par por linha. Quando a função encontra uma linha vazia é indicador de fim de contexto. Eis um exemplo da estrutura do repositório:

Contexto A

Contexto B

Tanto o primeiro como o segundo token podem conter vários tipos de informação: palavras, números, expressões regulares, nomes de ficheiros, comandos de sistema, e