• Nenhum resultado encontrado

Prospeção e Análise de Dados 2º Sem 2015/2016. Joaquim F da Silva & Susana Nascimento

N/A
N/A
Protected

Academic year: 2021

Share "Prospeção e Análise de Dados 2º Sem 2015/2016. Joaquim F da Silva & Susana Nascimento"

Copied!
19
0
0

Texto

(1)

Prospeção e Análise de Dados 

2º Sem 2015/2016 

(2)

Meaningful Mul?words  

Toward features 

(3)

First experiments: frequencies by descending order

 

• 

2‐gram freq.   

 

        4‐gram freq.     

1528    ‐ O       75      ‐ NoNcias breves da 

891     ‐ A       74      NoNcias breves da actualidade 

348    Estados Unidos      64      ‐ A bolsa de 

203    05 Jan      60      do Banco de Portugal 

195    De acordo       59      ministro dos negócios estrangeiros 

188    Agência Lusa       58      ‐ NoNcias breves da   

179    Banco de           57      NoNcias breves da actualidade   

165   Conselho de       54      De acordo com o    

       51      De acordo com a    

40    Libertação  Nacional        49      por cento do que   

40    Irlanda do      49      disse à Agência Lusa    

40    Câmara de       46      na África do Sul  

40     13 ‐       45     com o objec?vo de    

39     Nacional de   

39     Na sua           20      na abertura do mercado    

39     Geral de   

       20      na Assembleia da Republica   

39     Campeonato Nacional    20      em conferência de imprensa    

(4)

Frequencies by descending order(2) 

   20    do que no fecho     15   Câmara dos       20    do campeonato português de     15   Comissão Nacional      20     Ministro dos Negócios Estrangeiros      15   Com o      20     ‐ A Camara Municipal     15   Carvalho da      19      presidente de Camara Municipal    15   Cabo Verde       19      por cento para o     15   Bósnia e       19     face às principais divisas     15   Associação 25       19     disse hoje à  Agência     15   As conversações       19     de final da Taça            19     da Santa Casa da     4   Mês Cultural      4   México e                4      visita oficial de dois     4   Mário Tomé              4       visa protestar contra a     4   Municipalizados de       4       vila franca do campo     4   Municipal e      4  vice‐ministro dos negócios estrangeiros     4   Mundo dos              4  verde deverá  con?nuar a     4   Ministério de             4  venda e do transkei     4   Minas Gerais            4  valores estavam hoje a    

This criterion penalizes the length of the sequence 

(5)

Using morphosyntac?c informa?on 

 Colloca?ons from the Justeson  & Katz syntac?c filters   

f(w1 w2) w1 w2        Patern    

f(w1 w2)      w1 w2         Patern  

    11487 New York       A N     

 

2001     Middle East         A N  

7261 United States    A N    

 

1942    Saddam Hussein  N N  

5412 Los Angeles       N N   

 

1867     Soviet Union        A N  

3301 last year       A N   

 

1850     White House        A N  

3191 Saudi Arabia      N N   

 

1633     United Na?ons    A N  

2699 last week      A N   

 

1337     York City       N N  

2514 vice president    A N   

 

1328     oil prices       N N  

2378 Persian Gulf       A N   

 

1210      next year      A N  

2161 San Francisco    N N   

 

1074     chief execu?ve     A N  

2106 President Bush  N N   

 

1073      real estate      A N  

• 

MorphosyntacAc informaAon is necessary. Long n‐grams conAnues to be 

penalized by the frequency criterion. 

(6)

Extrac?ng Mul?word Relevant 

Expressions 

 LocalMaxs Algorithm (Silva & Lopes,99) 

   Core idea: words combine preferably with 

limited sets of words, forming cohesion 

groups. An n‐gram arises as Relevant 

Expression when its cohesion stands out in 

the context of its neighborhood. 

   

(7)

Measuring cohesion between words 

SCP_ f ((w

1

w

n

)) =

p((w

1

w

n

))

2

F

It returns values between 0 and 1 

(8)

Measuring cohesion between words

(2) 

Dice((x, y)) =

2 × f (x, y)

f (x) + f (y)

Dice_ f ((w

1

w

n

)) =

2 × f ((w

1

w

n

))

F

F =

1

n −1

i=1

f (w

1

w

i i= n−1

) + f (w

i+1

w

n

)

It returns values between 0 and 1 

(9)

Measuring cohesion between words

(3) 

MI((x, y)) = log(

p(x, y)

p(x) × p(y)

)

MI _ f ((w

1

w

n

)) = log(

p((w

1

w

n

))

F

)

F =

1

n −1

i=1

p(w

1

w

i i= n−1

) × p(w

i+1

w

n

)

Returned values are not limited by real numbers. 

(10)

Measuring cohesion between words

(4) 

Φ

2

((x, y)) =

(N × f (x, y) − f (x) × f (y))

2

f (x) × f (y) × f (¬y) × f (¬x)

Avq =

1

n −1

i=1

f (w

1

w

i i= n−1

) × f (w

i+1

w

n

)

Returned values between 0 and 1. 

f (¬x) = N − f (x)

N is the number of words in corpus 

Φ

2

_ f ((w

1

…w

n

)) =

(N × f ((w

1

…w

n

)) − Avq)

2

Avd

Avd =

1

n −1

i=1

f (w

1

w

i i= n−1

) × f (w

i+1

w

n

).(N − f (w

1

w

i

)) × (N − f (w

i+1

w

n

))

(11)

Measuring cohesion between words

(5) 

Other measures may be considered: 

 Jaccard(.,.),Loglike(.,.), Cosine(.,.), among others. 

Problem: prove that, contrary to MI(.,.), values 

returned from SCP(.,.) and Dice(.,.) does not 

depend on n_gram absolute frequency.   

(12)
(13)
(14)
(15)

Results from LocalMaxs with SCP_f(.) 

•  SCP_f(.)  0.0009276   Universidade Nova              0.0001322   Universidade Nova de    0.0004058   da Universidade Nova    0.00005399   na Universidade Nova    0.0002555   Nova de Lisboa     0.0053873   Universidade Nova de Lisboa           0.0001187   Universidade Nova de Lisboa (    0.00006521   Universidade Nova de Lisboa ,    0.00002609   Universidade Nova de Lisboa .    0.0001675  na  Universidade Nova de Lisboa    0.0005022  da  Universidade Nova de Lisboa    0.02768   Faculdade de Economia da Universidade    0.0001675   de Economia da Universidade Nova     0.004839   reitor da Universidade Nova de Lisboa       0.03134   Faculdade de Economia da Universidade Nova      0.00004907   , reitor da Universidade Nova de Lisboa    0.0001744   o reitor da Universidade Nova de Lisboa    0.00004893   reitor da Universidade Nova de Lisboa ,    0.00007832   reitor da Universidade Nova de Lisboa .    0.0001992   Faculdade de Economia da Universidade Nova ,    0.0007259   da Faculdade de Economia da Universidade Nova   

(16)

 

Relevant Expressions containing  “Univesidade” 

Universidade Autodidacta     Universidade Nova     Universidade Tecnica     Universidade Técnica     Universidades Portuguesas     Associacao de Estudantes da Universidade do Algarve     cento dos estudantes da Universidade de Coimbra     reitor da Universidade Nova de Lisboa     Faculdade de Economia da Universidade Nova     académica da Universidade da Beira Interior     criação de uma Universidade de Bragança     dirigente da associação académica da Universidade     reitor da Universidade de Aveiro     Associacao de Estudantes da Universidade     Associação de Estudantes da Universidade     Estudantes da Universidade do Algarve     Hospitais da Universidade de Coimbra     Reitoria da Universidade de Lisboa     cento dos estudantes da Universidade     uma Universidade de Bragança     Economia da Universidade Nova   

(17)

 Universidade Clássica de Lisboa     Universidade Nova de Lisboa     Universidade da Beira Interior     associação académica da Universidade     criação de uma Universidade     Estudantes da Universidade     Hospitais da Universidade     Reitores de Universidades     Universidade Católica Portuguesa     Universidade de Aveiro     Universidade de Coimbra     Universidade de Edimburgo     Universidade de Evora     Universidade do Algarve     reitor da Universidade   

(18)
(19)

Referências

Documentos relacionados

Ensaia-se uma abordagem ao percurso científico de José Leite de Vasconcelos, o mais notável cientista social que existiu em Portugal. Procura-se compreender quando e como o

Os valores da concentração de hemoglobina (Hb), em relação aos tempos de indução, 1 hora e 24 horas após a indução, não apresentaram diferença significativa, para os grupos

Informação somatossensorial fornecida pelo toque suave reduz oscilação corporal e a utilização de bandagens pode melhorar a capacidade proprioceptiva de indivíduos com

Este texto pretende discutir, a partir da premissa básica da necessidade do real uso da cidade pelos seus habitantes e da comunicação como dispositivo de inserção e mobilização

Após a realização de um tratamento térmico ocorre um pequeno incremento na repelência de água (aumento do AC) quando comparada com a mesma amostra sem o tratamento térmico, ou

Quando falo em regime de governação económico-social da União estou a falar de quatro sub- regimes estruturantes que hoje funcionam em ordem dispersa: o regime de estabilidade

portanto, estudos direcionados para busca de rearranjos patogênicos em regiões candidatas não é efetiva. 2) Dois pacientes apresentaram grandes segmentos de perda de

A qualificação é efetuada em função da capacidade técnica que corresponde ao reconhecimento como entidade prestadora de serviços de aconselhamento no âmbito do SAAF, nos termos