Contexto Histórico - Linguagem Natural - Text Mining e processamento de linguagem natural para

3.4. Linguagem Natural

3.4.1. Contexto Histórico

A pesquisa no âmbito do PLN tem acontecido por várias décadas começando no final dos anos 40 do século passado. O primeiro computador com aplicações baseadas na Linguagem Natural foi o Machine Translation. Em 1946, Weaver e Booth (1949) desenvolveram um computador de Machine Translation que estava especializado em descobrir os códigos dos inimigos durante a Segunda Guerra Mundial. Esse projeto inspirou vários projetos posteriores a este. Weaver sugeriu usar ideias da criptografia e da teoria de informação para a tradução da linguagem, a ideia foi aceite e as pesquisas iniciaram-se em várias instituições dos Estados Unidos durante os anos seguintes (Weaver, 1949).

Os primeiros trabalhos realizados em Machine Translation enveredaram por um ponto de vista mais simples, onde apenas se via as diferenças entre os vários idiomas, que residiam nos seus vocabulários e nas ordenações de palavras. Os sistemas desenvolvidos por esta perspetiva usavam apenas um dicionário-lookup para as palavras apropriadas para a tradução e guardavam as palavras depois de traduzidas para as colocar nas regras de ordem de palavras do seu idioma, sem ter em conta a ambiguidade do campo léxico da linguagem natural. Esta prática teve resultados insatisfatórios, e para a resolver os investigadores tiveram uma tarefa bastante mais complicada do que a prevista, já que, precisavam de uma teoria mais adequada da linguagem (Liddy, 2001).

Em 1957, Chumsky (Chumsky, 1957) introduziu a ideia da gramática generativa, o que fez obter uma maior visão, se ou como, a linguística dominante podia ajudar o Machine

32 Translation. Durante este período, começaram a emergir outras áreas do PLN como o reconhecimento da fala. A comunidade do processamento de linguagem e a comunidade da fala foram divididos em dois campos com o processamento de linguagem dominado pela perspetiva teórica da gramática generativa e métodos estatísticos hostis, e a comunidade da fala dominada pela teoria da informação estatística e teorias linguísticas hostis.

Em 1950, existiu um grande entusiasmo porque as pessoas acreditavam que os sistemas automáticos de grande qualidade na tradução de idiomas seriam capazes de reproduzir resultados indistinguíveis dos tradutores humanos, e que esses sistemas iriam estar operacionais dentro de alguns anos. Isso não era realístico pois na altura não existiam sistemas de conhecimento linguístico computacionais disponíveis (Liddy, 2001).

Devido às inadequações dos sistemas existentes na época e para travar ao entusiasmo existente, foi emitido um comunicado pela Automatic Language Processing Advirosy Commitee of National Academy of Science – National Research Council (ALPAC) a esclarecer que o Machine Translation não era imediatamente alcançável e recomendável, bem como, não era consolidado. Este comunicado levou à suspensão de grande parte dos trabalhos em PLN e de Machine Translation nos Estados Unidos (ALPAC, 1966).

Apesar de grande parte dos trabalhos em PLN terem sido suspensos nos anos seguintes ao comunicado feito pela ALPAC, surgiram desenvolvimentos significativos, tanto nos problemas teóricos bem como na construção de sistemas protótipos. O trabalho teórico desenvolvido na década de 60 e 70 focou-se no problema de como representar o sentido e desenvolver soluções computacionalmente tratáveis, que as teorias existentes à data não foram capazes de desenvolver, como por exemplo, em 1970 a Força Aérea dos Estados Unidos da América começou a utilizar o Systran. Em 1976 foi a vez da Comissão das Comunidades Europeias implementá-lo. O Systran é um sistema de Machine Translation (Hutchins, 2005).

A par do desenvolvimento teórico, bastantes sistemas protótipos foram desenvolvidos para demonstrar a efetividade de princípios particulares. Por exemplo, foram criados sistemas que replicavam a conversa entre um psicólogo e o seu doente onde só seria necessário permutar ou ecoar o user input. Também existiram tentativas de encarnar uma teoria da paranoia num sistema, em que em vez de palavras-chave individuais, foram utilizados grupos de palavras-chaves, e sinónimos usados se as palavras-chaves não fossem encontradas (Liddy, 2001).

33 Neste mesmo período também se verificaram trabalhos relevantes na Natural Language Generation. O Planeador de Discurso de McKeown (TEXT) (McKeown, 1985) e o gerador de resposta de McDonald (MUMBLE) (Mcdonald & Pustejovsky, 1985) usavam predicados retóricos para produzir descrições declarativas em forma de pequenos textos, normalmente parágrafos. A habilidade da ferramenta de McKeown onde era possível gerar respostas coerentes online foi considerada um grande feito na área.

Já no início dos anos 80, motivado pelo aumento na disponibilidade de recursos computacionais críticos, verificou-se uma crescente consciência de cada comunidade das limitações de soluções isoladas de problemas de PLN. Esses dois fatores em conjunto originaram um impulso geral para o desenvolvimento das aplicações que trabalham com uma linguagem ampla no contexto do mundo real. Posto isto, os investigadores voltaram a analisar abordagens não-simbólicas que tinham perdido popularidade nos primeiros tempos da Linguagem Natural (Liddy, 2001).

Na década de 90, o campo do PLN cresceu rapidamente e isso deveu-se a certos fatores, como o aumento da disponibilidade de grandes quantidades de texto eletrónico, a disponibilidade de computadores com maior memória e velocidade de processamento e da chegada da Internet. Várias abordagens estatísticas têm surgido para lidar com vários problemas genéricos nas linguísticas computacionais como a identificação do part-of-speech, por exemplo. Os investigadores de PLN têm desenvolvido uma geração de sistemas que lidam razoavelmente bem com texto generalizado e contam com uma boa porção da variabilidade e da ambiguidade da linguagem (Liddy, 2001).

No documento Text Mining e processamento de linguagem natural para interpretação de notas clínicas (páginas 46-48)