• Nenhum resultado encontrado

M´etodos estat´ısticos tˆem dado grande contribui¸c˜ao ao PLN, como s˜ao os casos da lei de Zipf, do gr´afico de Luhn, o princ´ıpio de Pareto e o ´ındice de Theil. Os m´etodos estat´ısticos podem ser utilizados para auxiliar o PLN em diversas situa¸c˜oes. Eles tˆem sido utilizados na etiquetagem gramatical, na resolu¸c˜ao de ambiguidade e na aquisi¸c˜ao de conhecimento lexical, entre outras aplica¸c˜oes. Basicamente quatro m´etodos estat´ısticos s˜ao utilizados, ajudando a obter melhores resultados.

4.3.1

´Indice de distribui¸c˜ao de Theil

O ´ındice de desigualdade L de Theil ´e utilizado como um indicador da distribui¸c˜ao das quantidades de termos, para a mensura¸c˜ao da desigualdade da distribui¸c˜ao da popula¸c˜ao entre um determinado n´umero de termos. Este ´ındice varia de zero a um, sendo que o valor zero corresponde `a menor concentra¸c˜ao e o valor um `a maior concentra¸c˜ao. ´E calculado a partir da seguinte f´ormula:

L = log( µ

M) (4.1)

Onde: L = L de Theil, µ ´e a m´edia aritm´etica, e M ´e a m´edia geom´etrica.

4.3.2

Princ´ıpio de Pareto

O princ´ıpio de Pareto ´e conhecido tamb´em como o princ´ıpio 80-20. Ele afirma que para muitos fenˆomenos, 80% das consequˆencias advˆem de 20% das causas. Ou seja que 80% dos resultados que obtemos est˜ao relacionados com 20% dos esfor¸cos.

4.3.3

Distribui¸c˜ao de termos pela lei de Zipf

Este princ´ıpio identificou que em um texto suficientemente extenso, existia uma rela¸c˜ao entre a frequˆencia que um dado termo ocorria, e sua posi¸c˜ao na lista de termos ordenados segundo sua frequˆencia de ocorrˆencia. Essa lista era produzida, levando se em conta a frequˆencia decrescente de ocorrˆencias. `A posi¸c˜ao nesta lista d´a-se o nome de ordem de s´erie (rank ). Assim, o termo de maior frequˆencia de ocorrˆencia tem ordem de s´erie 1, a de segunda maior frequˆencia de ocorrˆencia, ordem de s´erie 2, e assim sucessivamente. Analisando a distribui¸c˜ao das palavras em v´arias listas, ele percebeu que existia um pe- queno n´umero de palavras que ocorrem muito frequentemente, enquanto a maioria das palavras ocorre com pouca frequˆencia. Zipf tamb´em notou que se multiplicasse o rank de um termo com sua frequˆencia (F ) de ocorrˆencia resultaria em um valor aproximadamente constante (C). Ent˜ao ele elaborou a primeira lei que afirma que:

R.F = C (4.2)

Essa f´ormula s´o ´e aplic´avel a palavras com alta frequˆencia de ocorrˆencia em um texto.

4.3.4

A curva de Zipf e os cortes de Luhn

A curva de Zipf e os cortes de Luhn s˜ao baseados principalmente no princ´ıpio do m´ınimo esfor¸co, publicado no livro Human Behavior and the Principle of Least Effort em 1946 e na distribui¸c˜ao normal. Para isso, interpreta-se a distribui¸c˜ao dos termos de acordo com o trabalho de Lunh [Luhn, 1958] e a Lei de Zipf, que afirma que os termos mais significativos (T S) s˜ao aqueles que n˜ao s˜ao muito comuns ou aqueles que s˜ao muito estranhos, e tamb´em, que o significado dos termos ´e dada pela distribui¸c˜ao normal centrada na m´edia (µ) do desvio TF-rank e o desvio padr˜ao (σ) – ver Figura 4.2, dada pela equa¸c˜ao4.3:

T S(i) = f (ri; µ, σ) =

1 σ√2πe

−(ri−µ)2/2σ2 (4.3) Onde, µ ´e a m´edia e o σ ´e o desvio padr˜ao. Se uma vari´avel aleat´oria x tem distribui¸c˜ao normal com m´edia µ e variˆancia σ2, diz-se que xv N(µ,σ2). Assim, a curva apresenta uma

´

possui ´areas menores, progressivamente mais pr´oximas de ambas as extremidades, em que s˜ao encontrados valores muito baixos de x (`a esquerda) ou valores muito altos (`a direita), ambos presentes em baixas frequˆencias.

Frequência das te

rmos

Termos ordenados por ranking Corte

Superior

Corte Inferior

Poder de solução dos termos significantes Termos significantes Termos significantes ( )

_ _ _ _ _ _ _ _ _ _ _ _

) ( Todos os termos 1 2 3 4 5 6 7 Títulos

*_

* *

_

_

*

_

_

_

_

Figura 4.2: A curva de zipf e os cortes de Luhn.

Como em qualquer fun¸c˜ao de densidade de probabilidade a ´area sob a curva normal tende a um, sendo a frequˆencia total igual a 100%. Assim, a curva normal ´e uma distri- bui¸c˜ao que possibilita determinar probabilidades associadas a todos os pontos da linha de base.

O valor de uma vari´avel tem ocorrˆencia normal quando est´a entre 95% da ´area sob a curva em forma de sino, que tem a vari´avel frequˆencia no eixo dos Y, cujas extremidades ocupam 2,5% cada. Ou seja, algum valor ´e considerado normal se est´a na em qualquer ponto entre 0,025 e 0,975 (2,5 e 97,5%) da ´area sobre a curva. Portanto, h´a dois tipos de ”normal”. Todos os valores encontrados na ´area que est´a entre 0 a 2,5% correspondem a um tipo. E todos os que est˜ao no final da curva, ou seja entre 97,5 e 100% se refiram ao outro tipo. ´E importante entender como a curva ´e afetada pelos valores num´ericos de µ e σ. Se consideramos a ´area sob a curva normal, com z = 95% = 0, 95, 0,95/2=0,4750. Procurando esse valor (0,4750) na tabela de z chega-se a 1, 96.

95%

2,5% 2,5%

µ µ+1,96σ µ-1,96σ

4.4

Considera¸c˜oes Finais

Neste cap´ıtulo, apresentou-se as principais t´ecnicas de processamento de texto, seguida- mente uma explica¸c˜ao sobre o tratamento de texto e a aplica¸c˜ao de m´etodos estat´ısticos.

Cap´ıtulo

5

Metodologia desenvolvida e seus

resultados

5.1

Considera¸c˜oes Iniciais

A

presentando o escopo do trabalho quanto ao problema, motiva¸c˜ao e objetivos, busca-se com este cap´ıtulo proporcionar uma vis˜ao dos procedimentos da me- todologia desenvolvida que ´e utilizada para chegar a uma an´alise espectral de dados no contexto Multi-Relacional. Uma das ´areas de minera¸c˜ao de dados Relacional, conforme evidenciado no Cap´ıtulo 1. De modo espec´ıfico, encontram-se descrito os passos e os experimentos de forma detalhada.

No rol dos passos da metodologia est˜ao os lineamentos, que possuem um importante papel na pesquisa cient´ıfica [Quille et al., 2014], no sentido em que cada passo ´e impor- tante para obter resultados para determinados problemas de estudo.

Documentos relacionados