Prospeção e Análise de Dados
2º Sem 2015/2016
Meaningful Mul?words
Toward features
First experiments: frequencies by descending order
•
2‐gram freq.
4‐gram freq.
1528 ‐ O 75 ‐ NoNcias breves da
891 ‐ A 74 NoNcias breves da actualidade
348 Estados Unidos 64 ‐ A bolsa de
203 05 Jan 60 do Banco de Portugal
195 De acordo 59 ministro dos negócios estrangeiros
188 Agência Lusa 58 ‐ NoNcias breves da
179 Banco de 57 NoNcias breves da actualidade
165 Conselho de 54 De acordo com o
51 De acordo com a
40 Libertação Nacional 49 por cento do que
40 Irlanda do 49 disse à Agência Lusa
40 Câmara de 46 na África do Sul
40 13 ‐ 45 com o objec?vo de
39 Nacional de
39 Na sua 20 na abertura do mercado
39 Geral de
20 na Assembleia da Republica
39 Campeonato Nacional 20 em conferência de imprensa
Frequencies by descending order(2)
20 do que no fecho 15 Câmara dos 20 do campeonato português de 15 Comissão Nacional 20 Ministro dos Negócios Estrangeiros 15 Com o 20 ‐ A Camara Municipal 15 Carvalho da 19 presidente de Camara Municipal 15 Cabo Verde 19 por cento para o 15 Bósnia e 19 face às principais divisas 15 Associação 25 19 disse hoje à Agência 15 As conversações 19 de final da Taça 19 da Santa Casa da 4 Mês Cultural 4 México e 4 visita oficial de dois 4 Mário Tomé 4 visa protestar contra a 4 Municipalizados de 4 vila franca do campo 4 Municipal e 4 vice‐ministro dos negócios estrangeiros 4 Mundo dos 4 verde deverá con?nuar a 4 Ministério de 4 venda e do transkei 4 Minas Gerais 4 valores estavam hoje aThis criterion penalizes the length of the sequence
Using morphosyntac?c informa?on
Colloca?ons from the Justeson & Katz syntac?c filters
f(w1 w2) w1 w2 Patern
f(w1 w2) w1 w2 Patern
11487 New York A N
2001 Middle East A N
7261 United States A N
1942 Saddam Hussein N N
5412 Los Angeles N N
1867 Soviet Union A N
3301 last year A N
1850 White House A N
3191 Saudi Arabia N N
1633 United Na?ons A N
2699 last week A N
1337 York City N N
2514 vice president A N
1328 oil prices N N
2378 Persian Gulf A N
1210 next year A N
2161 San Francisco N N
1074 chief execu?ve A N
2106 President Bush N N
1073 real estate A N
•
MorphosyntacAc informaAon is necessary. Long n‐grams conAnues to be
penalized by the frequency criterion.
Extrac?ng Mul?word Relevant
Expressions
LocalMaxs Algorithm (Silva & Lopes,99)
Core idea: words combine preferably with
limited sets of words, forming cohesion
groups. An n‐gram arises as Relevant
Expression when its cohesion stands out in
the context of its neighborhood.
Measuring cohesion between words
€
SCP_ f ((w
1w
n)) =
p((w
1w
n))
2F
It returns values between 0 and 1
Measuring cohesion between words
(2)
€
Dice((x, y)) =
2 × f (x, y)
f (x) + f (y)
€
Dice_ f ((w
1w
n)) =
2 × f ((w
1w
n))
F
€
F =
1
n −1
i=1f (w
1w
i i= n−1∑
) + f (w
i+1w
n)
It returns values between 0 and 1
Measuring cohesion between words
(3)
€
MI((x, y)) = log(
p(x, y)
p(x) × p(y)
)
€
MI _ f ((w
1w
n)) = log(
p((w
1w
n))
F
)
€
F =
1
n −1
i=1p(w
1w
i i= n−1∑
) × p(w
i+1w
n)
Returned values are not limited by real numbers.
Measuring cohesion between words
(4)
€
Φ
2((x, y)) =
(N × f (x, y) − f (x) × f (y))
2f (x) × f (y) × f (¬y) × f (¬x)
€
Avq =
1
n −1
i=1f (w
1w
i i= n−1∑
) × f (w
i+1w
n)
Returned values between 0 and 1.
€
f (¬x) = N − f (x)
N is the number of words in corpus
€
Φ
2_ f ((w
1…w
n)) =
(N × f ((w
1…w
n)) − Avq)
2Avd
€
Avd =
1
n −1
i=1f (w
1w
i i= n−1∑
) × f (w
i+1w
n).(N − f (w
1w
i)) × (N − f (w
i+1w
n))
Measuring cohesion between words
(5)
Other measures may be considered:
Jaccard(.,.),Loglike(.,.), Cosine(.,.), among others.
Problem: prove that, contrary to MI(.,.), values
returned from SCP(.,.) and Dice(.,.) does not
depend on n_gram absolute frequency.
Results from LocalMaxs with SCP_f(.)
• SCP_f(.) 0.0009276 Universidade Nova 0.0001322 Universidade Nova de 0.0004058 da Universidade Nova 0.00005399 na Universidade Nova 0.0002555 Nova de Lisboa 0.0053873 Universidade Nova de Lisboa 0.0001187 Universidade Nova de Lisboa ( 0.00006521 Universidade Nova de Lisboa , 0.00002609 Universidade Nova de Lisboa . 0.0001675 na Universidade Nova de Lisboa 0.0005022 da Universidade Nova de Lisboa 0.02768 Faculdade de Economia da Universidade 0.0001675 de Economia da Universidade Nova 0.004839 reitor da Universidade Nova de Lisboa 0.03134 Faculdade de Economia da Universidade Nova 0.00004907 , reitor da Universidade Nova de Lisboa 0.0001744 o reitor da Universidade Nova de Lisboa 0.00004893 reitor da Universidade Nova de Lisboa , 0.00007832 reitor da Universidade Nova de Lisboa . 0.0001992 Faculdade de Economia da Universidade Nova , 0.0007259 da Faculdade de Economia da Universidade Nova
Relevant Expressions containing “Univesidade”
Universidade Autodidacta Universidade Nova Universidade Tecnica Universidade Técnica Universidades Portuguesas Associacao de Estudantes da Universidade do Algarve cento dos estudantes da Universidade de Coimbra reitor da Universidade Nova de Lisboa Faculdade de Economia da Universidade Nova académica da Universidade da Beira Interior criação de uma Universidade de Bragança dirigente da associação académica da Universidade reitor da Universidade de Aveiro Associacao de Estudantes da Universidade Associação de Estudantes da Universidade Estudantes da Universidade do Algarve Hospitais da Universidade de Coimbra Reitoria da Universidade de Lisboa cento dos estudantes da Universidade uma Universidade de Bragança Economia da Universidade NovaUniversidade Clássica de Lisboa Universidade Nova de Lisboa Universidade da Beira Interior associação académica da Universidade criação de uma Universidade Estudantes da Universidade Hospitais da Universidade Reitores de Universidades Universidade Católica Portuguesa Universidade de Aveiro Universidade de Coimbra Universidade de Edimburgo Universidade de Evora Universidade do Algarve reitor da Universidade