• Nenhum resultado encontrado

2.4 Limita¸c˜oes

2.4.1 Suaviza¸c˜ao (Smoothing)

Os modelos de Markov s˜ao capazes de reconhecer e tamb´em de gerar sequˆencias de acordo com uma dada base de treinamento. Um problema muito comum enfrentado, por exemplo, na ´area de processamento de linguagem natural (NLP — Natural Language Processing) ´e a esparsidade desses modelos.

H´a mais de uma forma de se lidar com a esparsidade de um modelo de Mar- kov. Uma delas diz respeito ao pr´oprio tamanho do corpus analisado, uma vez que aumentando-se o n´umero de sequˆencias de treinamento h´a mais “oportunidades” de ocorrˆencia de transi¸c˜oes pouco prov´aveis.

Outra possibilidade ´e realizada a posteriori do processo de treinamento — trata- se do conjunto de t´ecnicas de suaviza¸c˜ao, cujo objetivo geral ´e “redistribuir” as pro- babilidades calculadas pelo modelo, tirando de elementos muito prov´aveis para au- mentar o peso de elementos menos prov´aveis [35]. Logo se percebe que tais t´ecnicas s˜ao aplic´aveis n˜ao somente `as transi¸c˜oes com probabilidade nula, mas tamb´em aos elementos com pequena probabilidade. Dependendo do problema com o qual se est´a lidando isso pode ser necess´ario, porque transi¸c˜oes pouco prov´aveis s˜ao usual- mente “subestimadas” nos c´alculos dos modelos — costumam aparecer menos que a frequˆencia relativa estimada — e, por isso, tˆem associadas a elas probabilidades

menores do que a generaliza¸c˜ao da classe realmente deveria apresentar.

A literatura destaca dois tipos de m´etodos de suaviza¸c˜ao — os m´etodos de back- off e os m´etodos de interpola¸c˜ao [28, 31, 35–37] —, cada um sendo definido pela forma de uso das probabilidades estimadas na ordem do modelo e em ordens infe- riores. Conforme visto na Se¸c˜ao 2.2.2, um modelo de Markov de qualquer ordem N − 1 estima a probabilidade de uma transi¸c˜ao de maneira similar ao exposto na Equa¸c˜ao 2.14, reescrita aqui de forma mais gen´erica por facilidade [35]:

pML(wk|skk−N+1−1 ) = C(s k k−N+1) C(sk−1 k−N+1) = C(s k k−N+1) P wkC(s k k−N+1) . (2.21)

Nos m´etodos de backoff, usualmente as probabilidades de todas as transi¸c˜oes em ordem N− 1 que apresentem contagem nula s˜ao aproximadas pelas probabilidades de um modelo com ordem N − 2, conforme:

pbackoff(wk|skk−N+1−1 ) =    α(wk|skk−1−N+1) seC(skk−N+1) > 0 γ(sk−N+1k−1 )pbackoff(wk|sk−N+2k−1 ) seC(skk−N+1) = 0 , (2.22)

onde, em cada diferente m´etodo de backoff, α(wk|skk−N+1−1 ) representa uma altera¸c˜ao

no estimador de m´axima verossimilhan¸ca padr˜ao, enquanto γ(skk−N+1−1 ) ´e um fator de escala para garantir que as probabilidades somem 1 [35]. ´E um exemplo de m´etodo de backoff famoso na literatura o m´etodo de suaviza¸c˜ao de Katz [35].

J´a os m´etodos de interpola¸c˜ao combinam as probabilidades estimadas nas ordens N− 1, N − 2 etc. com diferentes pesos [31] como pode ser observado em:

pinterpola¸c˜ao(wk|skk−N+1−1 ) = λsk−1k−N +1pML(wk|s k−1 k−N+1) +

+ (1− λsk−1k−N +1)pinterp(wk|sk−1k−N+2), (2.23)

onde o fator de interpola¸c˜ao linear λsk−1

k−N +1 pode ser calculado de forma a maximizar

alguma probabilidade ou escolhido igual para toda subsequˆencia sk−1k−N+1 [35]. Uma regra pr´atica consiste na segmenta¸c˜ao das diferentes subsequˆencias sk−1k−N+1 e pos- terior sele¸c˜ao dos valores de λsk−1

k−N +1 de acordo com as contagens observadas [35].

Os m´etodos de Witten-Bell e Jelinek-Mercer (visto na Equa¸c˜ao 2.23) s˜ao m´etodos de interpola¸c˜ao linear t´ıpicos [35]. O Apˆendice B apresenta o algoritmo de maxi- miza¸c˜ao de expectativa que permite calcular os valores ´otimos dos parˆametros de interpola¸c˜ao para um conjunto de dados.

O m´etodo aditivo tamb´em ´e de particular interesse os pesquisadores da ´area de processamento de linguagem natural. Para evitar o problema das contagens nulas, esse m´etodo de suaviza¸c˜ao considera que cada transi¸c˜ao “acontece com um pouco mais de frequˆencia do que ela realmente ocorre” [35], adicionando um fator ξ∈ (0, 1]

a sua contagem, de forma que: paditivo(wk|sk−1k−N+1) = ξ +C(sk k−N+1) ξ|T | +Pw kC(s k k−N+1) , (2.24)

onde T representa o conjunto de transi¸c˜oes poss´ıveis. Tipicamente, a cardinalidade m´axima que esse conjunto pode assumir para um modelo de ordem N−1 ´e |T | = MN,

onde M denota o n´umero de s´ımbolos diferentes existentes no corpus.

O relat´orio t´ecnico de Stanley F. Chen e Joshua Goodman [35] apresenta uma an´alise bastante exaustiva dos principais m´etodos de suaviza¸c˜ao.

Cap´ıtulo 3

Gram´aticas Gerativas

As gram´aticas gerativas s˜ao um formalismo sint´atico desenvolvido pelo linguista norte-americano Avram Noam Chomsky (1928–). S˜ao ferramentas matem´aticas poderosas, capazes de analisar e sintetizar sequˆencias de s´ımbolos atrav´es de um conjunto de regras de substitui¸c˜ao. Uma boa gram´atica para uma linguagem ´e aquela capaz de validar (e gerar) todas e somente aquelas sequˆencias pertencentes `a linguagem em quest˜ao.

Neste cap´ıtulo, ser´a apresentado um panorama geral sobre esta t´ecnica de an´alise e de s´ıntese, desde sua inspira¸c˜ao hist´orica. A teoria ´e brevemente apresentada, bem como os diferentes tipos de gram´atica, de acordo com a hierarquia de Chomsky. A partir da interpreta¸c˜ao da m´usica como um formalismo matem´atico, esclarece-se a aplica¸c˜ao das gram´aticas e suas limita¸c˜oes no campo da Composi¸c˜ao Algor´ıtmica, atrav´es dos esfor¸cos de alguns pesquisadores. Por fim, ´e explicitada a rela¸c˜ao desta t´ecnica com as cadeias de Markov, j´a vistas em detalhe no Cap´ıtulo 2.

3.1

Motiva¸c˜ao

“A sintaxe ´e o estudo dos princ´ıpios e dos processos pelos quais as sen- ten¸cas s˜ao contru´ıdas em linguagens particulares. Uma investiga¸c˜ao sint´atica de determinada linguagem tem como objetivo a constru¸c˜ao de uma gram´atica que pode ser vista como uma ferramenta para produ¸c˜ao de senten¸cas da linguagem sob an´alise” [38, p. 11].

Por sobre essa pequena defini¸c˜ao da rela¸c˜ao entre sintaxe e gram´atica, presente no in´ıcio do livro “Syntactic Structures” [38] (1957), Noam Chomsky baseou todo seu trabalho em lingu´ıstica, posteriormente consagrando-se como um dos maiores pensadores dessa ´area, que se dedica ao estudo da l´ıngua, da fala e da linguagem. Chomsky aborda a quest˜ao da forma¸c˜ao da linguagem de maneira diversa ao pa- radigma em voga em toda a Europa at´e o final da primeira metade do s´eculo XX

— o estruturalismo lingu´ıstico, cuja origem se deve ao su´ı¸co Ferdinand de Saussure (1857–1913), e que encontrou no linguista Leonard Bloomfield (1887–1949) um dos seus principais difusores nos Estados Unidos.