• Nenhum resultado encontrado

Modelagem de linguagens naturais para a captura de relacionamentos sintático-semânticos

N/A
N/A
Protected

Academic year: 2021

Share "Modelagem de linguagens naturais para a captura de relacionamentos sintático-semânticos"

Copied!
43
0
0

Texto

(1)

Modelagem de linguagens naturais para a captura

Modelagem de linguagens naturais para a captura

de relacionamentos sintático-semânticos de relacionamentos sintático-semânticos Bruno Menegola Bruno Menegola bmenegola@inf.ufrgs.br bmenegola@inf.ufrgs.br

Orientadora: Aline Villavicencio

Orientadora: Aline Villavicencio

Colaboradoras: Maria Alice Pimenta Parente e Maity Siqueira

Colaboradoras: Maria Alice Pimenta Parente e Maity Siqueira

Grupo de Processamento de Linguagem Natural

Grupo de Processamento de Linguagem Natural

Instituto de Informática / UFRGS

(2)

Modelagem de linguagens naturais para a captura de relacionamentos sintático-semânticos Organização:

Introdução e motivação Arquitetura proposta

(3)

Introdução Como as pessoas encontram as palavras que

(4)

Introdução Como as pessoas encontram as palavras que

querem usar?

(5)

Introdução Como as pessoas encontram as palavras que

querem usar?

As palavras estão armazenadas no léxico mental Entretanto o número e a organização das palavras é diferente de um dicionário

(6)

Introdução Como as pessoas encontram as palavras que

querem usar?

As palavras estão armazenadas no léxico mental Entretanto o número e a organização das palavras é diferente de um dicionário

Crianças e adultos organizam e recuperam as palavras da mesma forma?

Diferentes culturas organizam e recuperam as palavras da mesma forma?

(7)

Introdução O objetivo é criar modelos computacionais

(8)

Introdução O objetivo é criar modelos computacionais

Foco no desenvolvimento de modelos que

capturem relacionamentos sintático-semânticos: Sinonímia

Ex.: criar ↔ produzir

Hiperonímia

Ex.: voar ↔ locomover andar ↔ locomover

Hiponímia

Ex.: cortar ↔ picar cortar ↔ serrar

(9)

Metodologia Dados provém de pesquisas feitas com crianças e adultos do Brasil e da China realizadas por

colaboradores do Instituto de Psicologia da UFRGS

(10)

Metodologia Dados provém de pesquisas feitas com crianças e adultos do Brasil e da China realizadas por

colaboradores do Instituto de Psicologia da UFRGS

Cada pessoa realizou duas tarefas:

Descrever a ação exibida (primeira resposta)

Sugerir outro verbo que pudesse substituir o primeiro (segunda resposta)

(11)

Metodologia Dezessete filmes foram exibidos

(12)

Metodologia Dezessete filmes foram exibidos

Filme: ballon

resposta adultos resposta crianças

1 Estourar(35) 1 Estourar(34) 1 Dar(2) 1 Quebrar(2) 1 Bater(1) 1 Esmagar(1) 1 Furar(1) 1 Fazer(1) 2 furar(11) 1 Pegar(1) 2 explodir(9) 2 bater(2) 2 dar(5) 2 estourar(9) 2 bater(3) 2 estourar(2) 2 pressionar(2) 2 tirar(2) 2 esmagar(1) 2 esvaziar(1) 2 fazer(1) 2 rasgar(1) 2 romper(1)

(13)

Grafos Pain3 resposta adultos 1 Esfarelar(12) 1 Quebrar(11) 1 Esmigalhar(6) 1 Despedaçar(4) 1 Partir(2) 1 Desfarelar(1) 1 Desmanchar(1) 1 Destruir(1) 1 Tirar(1) 1 Triturar(1)

(14)

Grafos Pain3 resposta adultos 1 Esfarelar(12) 1 Quebrar(11) 1 Esmigalhar(6) 1 Despedaçar(4) 1 Partir(2) 1 Desfarelar(1) 1 Desmanchar(1) 1 Destruir(1) 1 Tirar(1) 1 Triturar(1)

(15)

Grafos 12 Pain3 resposta adultos 1 Esfarelar(12) 1 Quebrar(11) 1 Esmigalhar(6) 1 Despedaçar(4) 1 Partir(2) 1 Desfarelar(1) 1 Desmanchar(1) 1 Destruir(1) 1 Tirar(1) 1 Triturar(1)

(16)

Grafos 12 11 6 4 1 2 1 1 1 1 Pain3 resposta adultos 1 Esfarelar(12) 1 Quebrar(11) 1 Esmigalhar(6) 1 Despedaçar(4) 1 Partir(2) 1 Desfarelar(1) 1 Desmanchar(1) 1 Destruir(1) 1 Tirar(1) 1 Triturar(1)

(17)

Grafos Pain3 resposta adultos 1 Esfarelar(12) 1 Quebrar(11) 1 Esmigalhar(6) 1 Despedaçar(4) 1 Partir(2) 1 Desfarelar(1) 1 Desmanchar(1) 1 Destruir(1) 1 Tirar(1) 1 Triturar(1)

(18)
(19)
(20)
(21)
(22)

Tabelas Verbo Citações ... Amassar 15 2 45 7 Arrancar 3 3 5 2 Bater 2 2 2 1 1 Botar 1 1 1 1 Comer 1 1 1 Cortar 17 5 58 Cozinhar 1 1 1 Dar 3 3 6 3 2 Desabotoar 1 1 2 Descascar 32 4 105 13 Descosturar 1 1 5 Desencaixar 1 1 1 Desfarelar 1 1 1 Desmanchar 2 2 3 ... Número de

(23)

Tabelas Verbo Citações ... Amassar 15 2 45 7 Arrancar 3 3 5 2 Bater 2 2 2 1 1 Botar 1 1 1 1 Comer 1 1 1 Cortar 17 5 58 Cozinhar 1 1 1 Dar 3 3 6 3 2 Desabotoar 1 1 2 Descascar 32 4 105 13 Descosturar 1 1 5 Desencaixar 1 1 1 Desfarelar 1 1 1 Desmanchar 2 2 3 ... Número de ligações Freq. Total (670) Freq. tomato (36) Freq. arbre (36) Freq. ballon (39)

(24)

Tabelas Verbo Citações ... Amassar 15 2 45 7 Arrancar 3 3 5 2 Bater 2 2 2 1 1 Botar 1 1 1 1 Comer 1 1 1 Cortar 17 5 58 Cozinhar 1 1 1 Dar 3 3 6 3 2 Desabotoar 1 1 2 Descascar 32 4 105 13 Descosturar 1 1 5 Desencaixar 1 1 1 Desfarelar 1 1 1 Desmanchar 2 2 3 ... Número de ligações Freq. Total (670) Freq. tomato (36) Freq. arbre (36) Freq. ballon (39)

(25)

Tabelas Verbo Citações ... Amassar 15 2 45 7 Arrancar 3 3 5 2 Bater 2 2 2 1 1 Botar 1 1 1 1 Comer 1 1 1 Cortar 17 5 58 Cozinhar 1 1 1 Dar 3 3 6 3 2 Desabotoar 1 1 2 Descascar 32 4 105 13 Descosturar 1 1 5 Desencaixar 1 1 1 Desfarelar 1 1 1 Desmanchar 2 2 3 ... Número de ligações Freq. Total (670) Freq. tomato (36) Freq. arbre (36) Freq. ballon (39)

(26)

Tabelas Verbo Citações ... Amassar 15 2 45 7 Arrancar 3 3 5 2 Bater 2 2 2 1 1 Botar 1 1 1 1 Comer 1 1 1 Cortar 17 5 58 Cozinhar 1 1 1 Dar 3 3 6 3 2 Desabotoar 1 1 2 Descascar 32 4 105 13 Descosturar 1 1 5 Desencaixar 1 1 1 Desfarelar 1 1 1 Desmanchar 2 2 3 ... Número de ligações Freq. Total (670) Freq. tomato (36) Freq. arbre (36) Freq. ballon (39)

(27)

Generalidade Indica o quanto uma palavra é freqüente e

(28)

Generalidade Indica o quanto uma palavra é freqüente e

utilizável

Onde x e y são nós do grafo G, P(x) indica a

freqüência de x independente de filme e con(x) indica o grau de x

P  x= freq x

y∈G freq y con x=

y∈G x , y

(29)

Generalidade

Verbo gen(x) Citações

tirar 0,8450 7 10 81 cortar 0,6781 7 7 65 dividir 0,4769 8 8 40 fazer 0,2504 7 7 24 separar 0,2399 7 7 23 partir 0,1610 4 5 27 abrir 0,1386 3 4 31 ... Número de ligações Freq. Total (671)

Verbo gen(x) Citações

... desmembrar 0,0030 1 1 2 desmontar 0,0030 1 1 2 estilhaçar 0,0030 1 1 2 prensar 0,0030 1 1 2 achatar 0,0015 1 1 1 afinar 0,0015 1 1 1 danificar 0,0015 1 1 1 desagregar 0,0015 1 1 1 ... Número de

ligações Freq. Total (671)

P  x= freq x

y∈G freq y con x=

y∈G x , y

(30)

Generalidade

Verbo gen(x) Citações

tirar 0,8450 7 10 81 cortar 0,6781 7 7 65 dividir 0,4769 8 8 40 fazer 0,2504 7 7 24 separar 0,2399 7 7 23 partir 0,1610 4 5 27 abrir 0,1386 3 4 31 ... Número de ligações Freq. Total (671)

Verbo gen(x) Citações

... desmembrar 0,0030 1 1 2 desmontar 0,0030 1 1 2 estilhaçar 0,0030 1 1 2 prensar 0,0030 1 1 2 achatar 0,0015 1 1 1 afinar 0,0015 1 1 1 danificar 0,0015 1 1 1 desagregar 0,0015 1 1 1 ... Número de

ligações Freq. Total (671)

P  x= freq x

y∈G freq y con x=

y∈G x , y

(31)

Generalidade

Verbo gen(x) Citações

tirar 0,8450 7 10 81 cortar 0,6781 7 7 65 dividir 0,4769 8 8 40 fazer 0,2504 7 7 24 separar 0,2399 7 7 23 partir 0,1610 4 5 27 abrir 0,1386 3 4 31 ... Número de ligações Freq. Total (671)

Verbo gen(x) Citações

... desmembrar 0,0030 1 1 2 desmontar 0,0030 1 1 2 estilhaçar 0,0030 1 1 2 prensar 0,0030 1 1 2 achatar 0,0015 1 1 1 afinar 0,0015 1 1 1 danificar 0,0015 1 1 1 desagregar 0,0015 1 1 1 ... Número de

ligações Freq. Total (671)

P  x= freq x

y∈G freq y con x=

y∈G x , y

(32)

Convencionalidade Indica quanto uma palavra é preferida entre outras para descrever um determinado evento

(33)

Convencionalidade Indica quanto uma palavra é preferida entre outras para descrever um determinado evento

Sendo x|f a palavra x considerando apenas suas ocorrências no filme f: conv  x∣ f = freq x∣ f 

y ∈G freq y∣ f  Verbo abrir 13 estragar 6 descosturar 6 rasgar 6 destruir 2 inutilizar 2 arrancar 1 romper 1 partir 1 fazer 1 Freq. Chemise (39) Verbo Desmontar 35 Dividir 10 Desmanchar 2 Desencaixar 1 Tirar 1 Freq. legos (49)

(34)

Arquitetura Proposta

Dados de entrada

Geração de grafos

XML

Geração de visualização Análises Geração de planilhas

Arquivos de visualização Resultados de cálculos Planilhas

(35)

Conclusões O modelo possibilita realizar pesquisas sobre

(36)

Conclusões O modelo possibilita realizar pesquisas sobre

aquisição da linguagem

Esta pesquisa permite um melhor entendimento dos mecanismos e algoritmos de aprendizado necessários para a aquisição da linguagem

(37)

Conclusões Os resultados preliminares até então obtidos

(38)

Conclusões Os resultados preliminares até então obtidos

sugerem que:

Adultos utilizam muito mais palavras específicas que as crianças

(39)

Conclusões Os resultados preliminares até então obtidos

sugerem que:

Adultos utilizam muito mais palavras específicas que as crianças

Os falantes de Mandarim possuem um léxico maior que os de Português

(40)

Conclusões Os resultados preliminares até então obtidos

sugerem que:

Adultos utilizam muito mais palavras específicas que as crianças

Os falantes de Mandarim possuem um léxico maior que os de Português

Por essa razão as crianças chinesas também utilizam verbos mais específicos que as brasileiras.

(41)

Conclusões – Trabalhos futuros Dar continuidade com dados coletados de crianças de ambas as comunidades dois anos após o

(42)

Conclusões – Trabalhos futuros Dar continuidade com dados coletados de crianças de ambas as comunidades dois anos após o

estudo inicial

Esse modelo deve capturar a mudança gradual da organização lexical

(43)

Bruno Menegola

bmenegola@inf.ufrgs.br Obrigado!

Referências

Documentos relacionados

É a fase onde cuida-se da padronização e do ambiente psicológico da empresa, significa preocupar-se e cuidar do asseio e da aparência pessoal, é conservar a higiene, tendo cuidado

Estima-se que o número de tentativas de suicídio seja, pelo menos, 10 vezes maior que o de suicídios. 5 Já as taxas de ideação suicida são ainda maiores. No estudo de Kessler et

As constantes afirmativas de Bertha Young de quanto ela é feliz, na verdade, estão sugerindo que ela tente ser feliz na sociedade patriarcal, com todas as regras impostas à mulher,

Após a colheita, normalmente é necessário aguar- dar alguns dias, cerca de 10 a 15 dias dependendo da cultivar e das condições meteorológicas, para que a pele dos tubérculos continue

Os resultados revelam que os estudantes apresentaram dificuldades na elaboração dos mapas conceituais devido a não utilização deste instrumento no processo de ensino, porém

Im-01-18_A0 Elaborado Verificado Aprovado Pág. 3.2 - A opção a que se refere o número anterior terá que ser feita através de declaração escrita do aluno, a apresentar nos

Biocombustíveis derivados de material celulósico ou biocombustíveis de segunda geração — coloquialmente chamados de “gasolina de capim” — são aqueles produzidos a partir de

A autoavaliação consiste em processos de avaliação cíclica dos resultados da instituição, como um todo, no sentido de aferir o cumprimento da sua missão e objetivos.