NLTK
Biblioteca de ferramentas úteis para a utilização
dos princípios de PLN Linguagem Python
Funcionalidades para manipulação de strings
Interfaces padrões para realizar tarefas como
etiquetar textos, frequência de palavras,
lematização e stemização de palavras, entre
vários outros.
NLTK - I
NSTALAÇÃO Requer pelo menos a versão 3.5 do Python
Linux, MacOS e Windows 32-bit
Para instalação no Windows 64-bit, seguir esse
tutorial.
Deu certo? Testar com o comando import nltk.
Após a instalação do toolkit, instalar os dados necessários para o funcionamento.
NLTK - I
NSTALAÇÃO Verificar quais pacotes estão desatualizados e clicar em Download.
Selecionar o identificador all e clicar em Download.
NLTK - I
NSTALAÇÃO A barra de progresso abaixo da janela mostra o andamento do processo.
NLTK - I
NSTALAÇÃO A atualização demora por volta de 1 minuto e
meio. Quando estiver tudo certo, todos os pacotes
estarão com a cor verde.
NLTK - U
SO Dentro do NLTK contém vários corpora
Úteis para os etiquetadores, entidades nomeadas,
estruturas sintáticas e várias outras funcionalidades.
8
NLTK - U
SO Dentro do NLTK contém vários corpora
Úteis para os etiquetadores, entidades nomeadas,
estruturas sintáticas e várias outras funcionalidades.
NLTK - U
SO Nessa aula, vamos ver detalhadamente algumas funções importantes no tratamento de textos com NLTK. Tokenização Frequência/Contagem de palavras Stopwords N-gramas Stemmer e Lemma Etiquetadores
Para testar as funções, utilizaremos esse corpus!
NLTK - T
OKENIZAÇÃO Tokenizar = separar as palavras do texto Tipo um split?
Nível linguístico lexical: uma palavra, número ou pontuação agora é um token.
Dado o texto que vai ser tokenizado, basta usar a função nltk.word_tokenize(texto):
NLTK - T
OKENIZAÇÃO O tokenizador do NLTK pode ter algumas variações, como por exemplo, retornar apenas os tokens sem as pontuações:
Entramos em um novo mundo chamado expressões regulares.
E se quiséssemos os tokens sem pontuações e
numerais?
12
NLTK – F
REQUÊNCIA/C
ONTAGEM Com a lista de tokens, é possível fazer a contagem de ocorrência de tokens pelo NLTK.
Uso da classe FreqDist()
A função most_common() ordena a frequência dos
tokens. Pode ser usado um argumento para informar a quantidade de tokens mais comuns.
NLTK – F
REQUÊNCIA/C
ONTAGEM É importante notar que os tokens em maiúsculo e minúsculo são considerados diferentes.
Portanto, caso o objetivo da contagem seja de palavras iguais, por exemplo, é necessário usar as funções lower() (ou upper()) para normalizar os tokens.
Um novo princípio: list comprehesion
14
NLTK - S
TOPWORDS Stopwords são palavras que podem ser
consideradas irrelevantes para um certo resultado buscado.
Artigos, preposições, conjunções, por exemplo...
NLTK - S
TOPWORDS É possível, então, fazer vários tipos de pré-processamento.
Exemplo: Frequência dos tokens sem stopwords
NLTK – N-G
RAMAS17
Com a lista de tokens, é possível ter os n-gramas necessários para qualquer análise.
Por exemplo: predição da próxima palavra de uma
sentença em smartphones.
Bigramas: from nltk import bigrams Trigramas: from nltk import trigrams 4-gram ou mais: from nltk import ngrams
NLTK – N-G
RAMAS18
Bigramas
NLTK – N-G
RAMAS19
NLTK – N-G
RAMAS20
NLTK – N-G
RAMAS21
Os n-gramas são importantes para várias análises. Um exemplo, no nosso caso, seria conseguir as entidades nomeadas do nosso trecho.
NLTK – S
TEMMER EL
EMMATIZER22
STEMMING: consiste em reduzir a palavra ao seu radical.
amig: amigo, amiga, amigão gat: gato, gata, gatos
prop: propõem, propuseram, propondo
LEMATIZAÇÃO: consiste em reduzir a palavra à sua forma canônica, levando em conta sua
classe gramatical.
propor: propõem, propuseram, propondo estudar: estudando, estudioso, estudei
NLTK – S
TEMMER EL
EMMATIZER23
O NLTK tem implementado vários algoritmos de para stemmer: RSLP Porter ISRI Lancaster Snowball
NLTK – S
TEMMER EL
EMMATIZER24
O NLTK tem implementado várias variantes de stemmers:
RSLP – Removedor de Sufixos da Língua Portuguesa
Porter ISRI
Lancaster Snowball
NLTK – S
TEMMER EL
EMMATIZER25
Infelizmente o NLTK ainda não tem um lematizador para o Português bom o bastante.
Tentativa: WordNet Lemmatizer Funciona somente para o inglês...
NLTK – E
TIQUETADORES26
O NLTK possui dois corpus que servem como base para o etiquetador em português: o
Floresta e o Mac Morpho.
Para o inglês já existe um etiquetador padrão
treinado: o nltk.pos_tag().
Os etiquetadores passam primeiramente por uma fase de treinamento com as sentenças presentes.
Floresta: 9.266 sentenças etiquetadas
Mac Morpho: 51.397 sentenças etiquetadas
Como resultado, os etiquetadores retornam uma tupla (‘palavra’, ‘classe gramatical’)
Na qual a classe gramatical depende do treinamento
NLTK – E
TIQUETADORES: M
ACM
ORPHONLTK – E
TIQUETADORES: M
ACM
ORPHO28
NLTK – E
TIQUETADORES: M
ACM
ORPHO29
Por ter de passar por uma fase de treinamento, tinham palavras que o etiquetador não conseguiu identificar e fazer a classificação.
Uma solução é pré-classificar todas as palavras do texto como substantivos (N) e depois treinar o etiquetador normalmente.
NLTK – E
TIQUETADORES: M
ACM
ORPHONLTK – E
TIQUETADORES: M
ACM
ORPHONLTK – E
TIQUETADORES: M
ACM
ORPHO32
É possível, então, fazer várias manipulações com a lista de tuplas resultante:
Análises descritivas Análises sintáticas Chunking
Reconhecimento de Entidades Nomeadas
Nosso problema antigo!!
NLTK – E
TIQUETADORES: M
ACM
ORPHONLTK – T
RABALHANDO COMC
ORPUS34
Faça uma análise descritiva completa do nosso corpus de teste, utilizando as funções do NLTK. Exemplos de atributos:
Quantidade de tokens
Quantidade de sentenças / média do tamanho das
sentenças
Quantidade de substantivos, adjetivos, advérbios... Quantidade de palavras com o mesmo radical
Quantidade de símbolos de pontuação Palavras mais frequentes do corpus ...
SPA
C
Y Biblioteca Python para processamento de textos Escala industrial
Feito para uso em produção
Criação de aplicações que conseguem processar um
grande volume de dados
Versão 2.1 3.0!
O parser sintático mais rápido do mundo (!!) Acurácia de 92.6%
1% a mais que o melhor parser disponível
Suporte para mais de 61 linguagens 36
SPA
C
Y- I
NSTALAÇÃO Guia de instalação completo aqui
Compatível com versões 2.7/3.6+ do Python
Uma das poucas bibliotecas que ainda possuem
suporte para o Python 2.x
Linux, MacOS e Windows 64-bit Instalação por linha de comando
pip install –U spacy
Necessário instalar dados adicionais Parecido com o que fizemos no NLTK
SPA
C
Y- I
NSTALAÇÃO Dados adicionais para lematização
pip install –U spacy-lookups-data
Modelo de linguagem
Para o spaCy conseguir realizar suas funções, é
necessário que um modelo de linguagem esteja presente.
Modelos pré-treinados
Entidades Nomeadas Classes gramaticais
Dependências sintáticas
Parecido com os córpus que utilizamos como
SPA
C
Y- I
NSTALAÇÃO Modelos de linguagem para o português
python –m spacy download pt_core_news_sm python –m spacy download pt_core_news_md python –m spacy download pt_core_news_lg
Praticamente todas as atribuições que os modelos mais robustos possuem (exemplo: inglês)
Baseado no corpus WikiNER
Vetores dos tokens e classes gramaticais Análise de dependência
Entidades nomeadas
Mais detalhes sobre os modelos aqui.
SPA
C
Y- I
NSTALAÇÃO Além do modelo de linguagem padrão do spaCy, é possível criar o seu próprio modelo!
Ou usar um pronto, já treinado para algum fim
Um ótimo guia pode ser encontrado aqui!
Spoiler: inserção de alguns exemplos para
treinamento em um código próprio do spaCy
SPA
C
Y- U
SO Para o uso das funções poderosas do spaCy, é preciso entender dois objetos importantes:
O objeto Doc O objeto Token
Um Doc é uma sequência de objetos Token
Ou seja, um documento com vários tokens
manipuláveis
Métodos da classe Doc levam em consideração a
manipulação desses tokens
Exemplo: quantidade de tokens no documento
Um Token é o token que aprendemos na aula de NLTK: pode ser uma palavra, uma pontuação, numeral, espaços...
SPA
C
Y- U
SO Assim, antes de qualquer utilização das funções do spaCy, deve-se criar a variável que vai guardar o modelo de linguagem
IMPORTANTE: no NLTK era utilizado sempre a lista de
tokens, mas aqui no spaCy, o parâmetro é sempre a string do texto!
Portanto, a partir de agora, todas as funções
Bom, aqui vamos começar a usar as funções mais interessantes do spaCy: Tokenização Stemming e Lematizador Etiquetador Entidades Nomeadas
Utilizaremos o mesmo córpus das aulas anteriores
Tá aqui, para quem ainda não tem.
Claro, o spaCy contém várias outras funções! 43
Para recuperar os tokens, basta usar o conceito de list comprehension
44
Para recuperar os tokens, basta usar o conceito de list comprehension
Dá pra perceber algumas coisas aqui, concordam?
Uma delas: não parece ser uma lista de strings...
45
Para recuperar os tokens, basta usar o conceito de list comprehension
Agora sim! Só usar o atributo orth_ 46
Retorno com tipos de tokens diferentes: Somente as palavras: is_alpha
Somente os números: is_digit Somente pontuações: is_punct
47
Retorno com tipos de tokens diferentes:
Pontuação esquerda ou direita
Parênteses e colchetes Espaços Símbolos financeiros Números (10.9, 10, “dez”) E-mail Stopwords...
Lista completa com os atributos aqui.
48
Olha que interessante (e surpreendente): o spaCy não tem um stemmer padrão...
Porém, o spaCy tem um lematizador!
O inverso do NLTK, pelo menos para o Português!
Lematizar é simples: só utilizar o atributo lemma_:
49
É importante observar que foi utilizado um outro atributo que ainda não falamos: o pos_
Esse atributo é referente ao Part-Of-Speech, ou simplesmente, a classe gramatical do token.
Vale ressaltar que a lematização geralmente remete à forma canônica da palavra para os verbos, então é necessária essa condição.
Ok, mas como obtida essa classe gramatical? É simples assim, só com um atributo?
50
Sim. Basta chamar o atributo pos_ no token e assim é retornada a classe gramatical referente!
O conjunto de etiquetas para o português está aqui!
51