Text Mining (02870)
2018/2019
ISCTE-IUL
Objetivos
• Conhecer o potencial das grandes quantidades de texto atualmente disponíveis e os métodos computacionais que
podem ser utilizados para extrair conhecimento a partir desses dados.
- Conhecer os conceitos básicos e abordagens práticas - Ênfase nas abordagens gerais de Língua Natural
• Conhecer as aplicações realizáveis com as tecnologias atuais
• Proporcionar uma experiência prática na utilização de toolkits e na implementação de algoritmos, através da sua aplicação
específica a tarefas tais como análise de sentimento e modelação de tópicos
Metodologia
• Aulas
- 8 aulas teóricas (1h30) + 16 aulas teórico-práticas (1h30)
• Recursos necessários
- Acesso à Internet
- Ambiente de desenvolvimento de software (Python e/ou Java) - Terminal para aceder a uma shell UNIX
• Informação
- fenix.iscte.pt
- e-learning.iscte-iul.pt
Avaliação
• Esta UC é feita apenas por avaliação periódica, não contemplando a modalidade de exame final.
• A avaliação consiste em duas componentes
- TRABALHOS (60%)
- 2 trabalhos de avaliação (30% cada)
• realizados em grupos de 2 estudantes
- MINI-TESTES (40%)
- 2 mini-testes (20% cada), individuais e sem consulta
• Notas
- A nota de TRABALHOS está limitada à nota de MINI-TESTES + 6 valores.
- É obrigatória a presença em 66% das aulas.
- Em caso de reprovação, a nota da componente MINI-TESTES pode ser substituída por uma prova escrita realizada em 1ª ou 2ª época.
Planeamento
Data Segunda (18h00) Segunda (19h30)
1 24-Sep Apresentação + Introdução Introdução: obtenção e filtragem de informação, aplicações 2 01-Oct Preparação de dados, extração de features Representação de documentos
3 08-Oct PCL: lemaJzação, morfologia e sintaxe PCL: extração de informação, NER, extração de relações 4 15-Oct Classificação de Texto Classificação de Texto
5 22-Oct Análise de SenJmento Projeto 1: enunciado, dados, toolkits
6 29-Oct Apoio ao projeto Apoio ao projeto
7 05-Nov Apoio ao projeto Apoio ao projeto
8 12-Nov Mini-teste 1 Apresentações
9 19-Nov Modelação de tópicos Projeto 2: enunciado, dados, toolkits
10 26-Nov Apoio ao projeto Apoio ao projeto
11 03-Dec Apoio ao projeto Apoio ao projeto
12 10-Dec Mini-teste 2 Apresentações
• Microsoft
• Lucent
• Unbabel
• Visor.ai
• Bloomberg
• …
• nlp people
E depois de Text Mining?
• Microsoft
• Lucent
• Unbabel
• Visor.ai
• Bloomberg
• …
• nlp people
E depois de Text Mining?
• Microsoft
• Lucent
• Unbabel
• Visor.ai
• Bloomberg
• …
• nlp people
E depois de Text Mining?
• Microsoft
• Lucent
• Unbabel
• Visor.ai
• Bloomberg
• …
• nlp people
E depois de Text Mining?
• Microsoft
• Lucent
• Unbabel
• Visor.ai
• Bloomberg
• …
• nlp people
E depois de Text Mining?
Bibliografia
• Text Mining Handbook: advanced approaches in analyzing
unstructured data, Ronen Feldman and James Sanger, 2006, Cambridge University Press
• Mining Text Data, Charu C. Aggarwal & ChengXiang Zhai (Eds), 2012, Springer
• Data Mining: Practical Machine Learning Tools and Techniques, Ian Witten, Eibe Frank, and Mark A. Hall, 2011 (Third Edition), Morgan Kaufmann Publishers
• SPEECH and LANGUAGE PROCESSING: An Introduction to Natural Language Processing, Computational Linguistics and Speech
Recognition, Daniel Jurafsky & James H. Martin, 2009 (Second