UE
194 962UNIVERSIDADE
DE
ÉVORA
ESCOLA
DE
CIÊNCIAS
ETECNOLOGIA
DEPARTAMENTo DE r N
FoRMÁrtcn
Estudo sobre Análise
de
Sentimentos
em
Textos
Mestrado em Engenharia
Informática
Orientação: Henriques Fernando
Orientador: lrene Pimenta
Rodrigues
Dissertação
Dissertação
Estudo sobre Análise de Sentimentos em Textos
Heruiques Fernando
Orientadora
lrene Pimenta Rodrigues
Sumário
O
sentimentoem
opiniões terceiras semprefoi
e
continuaa
despertar interesse eextrema preocupação por parte dos gestores ou tomadores de decisões. Terceiros podem
ser
indivíduos, produtos, entidades empresariais, instituiçõesde
pesquisae
órgãos govemamentais etc. dado que força de expressões e ideias contoversas podem causar grandes celeumas. Desta forma o feedback emocional pode ser propulsor de mudanqas,no
sentido de proporcionar a busca contínua de melhoriaspoÍ um
lado ou determinarpor
outroo
insucesso da entidade.Logo a
análisede
sentimentosé
uma ferramenta indispensável no apoio ao processo de tomada de decisões.No
processo de análise de sentimentosfocamos
na
classificaçãode
polaridade
de
opiniões
em
textos
ou documentossm
termospositiva
ou
negativa.Uma
gamade
Aplicaçõese
Íecul§os actualmente está alinhadaà
Língua
Inglesa,o
que
mostraa
existê,nciade
poucas experiências noutras Línguas. O objectivo é desenvolver um protótipo como ferramenta de auxílio a análise de opiniões em textos, auxitiado pelas técnicas de Aprendizado em Automática e Processamento em Linguagem Natural.Na realização de experiências aplicamos a Classificação Supervisionado a dois Corpus
nomeada:rrente Review Movie e SentiCorVtts-pt, que contém textos com opiniões sobre
diversos
filmes
e
políticos
Portuguesesparticipantes
de um
debate
eleitoral respectivamente.A
metodologia
apücada baseia-sena
classificaçãode
padrões linguísticos tais como PosTag, Chunking e outras formas simPles de negação - Para a melhorara
classificação determinamosa
orientação semântica das palawas, desde ossenÍi recursos léxicos através do SentiWordrzet Sense, que é uma feraÍnenta em lnglês
que
faza
tradução de qualquer língua para o Inglês, antes de extracção de polaridade.A
nossa abordagem é avaliar os dois corpusi. Tarefa que é auxiliada pelo casamento de
termos linguísticos com vista a melhorar a performance. O classificador
utiliza
paratal
o modelo Balsa de Palavras oomo linha de base.
palawas-chave:
Análise
de
Sentimentos,Mineração
de
Textos,
Classificagão depolaridade, Aprendizado
Supervisionado, CaracterísticasLingústicas,
Orientação Semântica, Aprendizado em Máquina.Abstract
the
baseline.The feeling for third parties opinions has always been
and
itcontinues
to
arouseinterest and extreme concem by managers or decision
makers, third parties
canbe
individuals, products, business organizations, research
institutions
andgovemment
institutions
etc..
Knowing
that
expressions
force and
controversial
ideas can cause
majorembanassr"nt.
lnthis way, the
emotionalfeedback
can bechange
propetter,in
orderto
provide continuous search
for
improvements
onone side or
to
determine
on the other hands the failure of the entity'
so'
the
sentiment analysis
is an
indispensable
tool to
support
the
process
of
decision
making.
ln
the
process
of
sentiment analysis
we
have focused
on
the
classification
of polari§
of opinions
intexts or documents in positive
or
negative
terms
. A
range
of
applications
and
resources nowadays
are
aligned
with
English Language, which demonstrates
the
existence
of
few
experiences
inother languages . The aim is
to
develop
a
prototype
as
a
supporting tool
to
analyse
texts
opinions, supported
by
leaming techniques
on
Machine
andNatural Language Processing'
when
conducting experiments,
we have
applied
the supervised classification
into
two
corpus namely
ReviewMovie
and
senticorpus'pt'which
contains texts
with
opinions
of
different
films
and
Portuguese politicians participants
inelectoral
debate
respectively.
The
applied
methodology
is
based
on
the
classification
of
linguistic pattems such
as
Pos-tag,
chunking
is
other
simple
form
of
denial.
To
improve
the
classification
and
determine
the
semantic
orientation
of
words,
from the lexicon
resources
through sentiwordnet sense'
which
is
a
tool
in
English
that
makes
the
translation from
any
language
to
English before iàentify]ng
the polari§.
our
approach
is to
evaluate
the
two
corpus.
Task that
is
supporteOby thá
marriage
of
linguistic
terms in order
to
improve
the
performance. For such, the classifier uses the
bags word model
asKeywords: sentiment Analysis,
opinion Mining,
Polarity classification'
supervised Leaming,LinguisticFeatures,semanticorientation,MachineLeaming.Agradecimentos
A
deus em primeiro lugar por me iluminar e dar forgas para atingir este patamar;A
minha famíliapor
acreditar e aceitaro
ser ausente e compreender tempo e hora asrazões os beneficios que este novo degmu
súido
traz.A
minha orientadora ProfessoraDf
Irene Rodrigues Piment4 que de forma profissionale desinteressada abraçou a missão e acreditou desbravaÍ as terÍa§ longínquos para tomar este sonho possível, num momento que
o
nosso país não possui instituições paratal
feito, citar a sua disposição em ajudar mesmo em seu horário nobre.
A
todosos
Professores da Universidade de Évora que participaram directamente nanossa
formagão,
ao
acreditarem
e
deslocarem-se,paÍa
cumprir
uma
missão desinteressada,fica
o
meu
reconhecimento,nas
suas
capacidades, desfiezas napassagem de testemunho e conhecimentos.
A
todos os meus colegas que ajudaram directamente ou indirectame,nte a chegar atéaqú
o meu recoúecimento.
Lista
de
Acrónimos
APIs
Interface de programas de aplicaçõesAM
AprendizacloemMríquinasAS
Análise de sentimentosBD
Base de DadosCRF
Frequência condicional Randómicoe.g.
Em geralEC
Extacção de CaracterísticasHTML
Linguagem de Marcagão de HipertextosINSS
Instituto Nacional de Previdência Sociali.e
Isto éIA
InteligênciaArtificial
NLTKQuite
de ferramentas de LinguagemNaturalMD
Mineragão de DadosMT
Mineração de TextoNP
Sigmas nominaisNGD
Distáncia de Normalizaçilo de GooglePLN
Processamgnto em Linguagens NaturaisPMI
Informação pontual mútuaKNN
RI
SVM
SO SC SE SNS SAS SPSS TIs t.cLC
TMT
Vizinhos mais próximos Recuperação de informação
Vectores de Suporte de Máquina Orientação semântica
Selecção de características
Sistemas Especialistas Sítios de redes sociais
Sistema de Análise Estatística
Statistical Package for the Social Sciences
Tecnologia de Informação Tal como
Linguagens convencionais
Técnicas de Mineração de Textos
Lista
de
Figuras
Figuraí.1:Estrutura da
Tese...
""""""""9
Fitura 3.1: Processo de Descoberta de Conhecimento. Adaptada fonte:
[54].,....'..."""26
Figura 3.2: Tarefas de Minera@o de
dados..
""""""""30
Figura3.3: Fases de Minera@o de
Texto..
""""""""""31
Fióura 3.4:Tarefas de
PLN
""""""""""'34
Fitura3.5: Processo de Filfagem de
Documento
"""""'36
Fitura3.5: ClassificaSo de
document0...
""""'39
Filura 3.7: Processo de Classifieção de
Documentos
""""""""""""4í
Fitura 3.8:Técnicas de
Classifi@Fo...
""""""""'42
Fitura 3.9: K- viânhos mais
próximos...'...
"""""""49
Fitura 3.10: Ârvores de
Decisão
"""""""""'50
Fitura 3.11- Classificador por
Categoria
"""""""""
"'52 Fitura 312- Classifimdor por variasCategorias..
"""""52
Filura 4.1: Sistema de Análise de
Senüment0...'...
""""""""64
Figura 4.2: Arquitectura Geralde Sistema de Análise de Senüment0s...""""""""'64Figura 4.3: Processo de Análise de
Sentimentos...
"""""""""65
Fitura 4.4: Classifieso
Supervisionada...
""""""""66
Fióura 5.1- Esfutura do
Protóüpo
""""""""'78
Fitura 5.2- Trecho de mdigo Exemplo de
eüquetagem...
""""'80
Fitura 5.3- Trecho de código Tokeniza$o da
frase...
"""""""""81
Figura 5.4- Protótipo
lmplementado...,...'.'
""""""'82
Figura 5.3: Treinamento e teste do
corpus...
"""""'86
Tabela 5.1:Treinamento teste com Nai've Bayes.
Tabela 5.2: Exfaqão de CaracterÍsticas com Bolsa de Palawas.
Tabela 5.3: AvaliaSo de Caracterísücas Exfaídas....
Tabela 5.4:Treinamento e teste com Bigram e stopword..
Tabela 5.5: Treinamento e teste com uüliza@o de Bigram e melhores Caracteístims...92
Tabeta 5.6: Treinamento e teste com Máxima
Entropia...
...93vlll
.89 ,90 .90 .91
Conteúdo
Sumário
""""""""'i
Abstract
".'"""""'ii
Agradecimentos
...
""""'iii
Lista de
Símbolos....
"""""""'iv
Lista de
Acrónimos.
"""""""'vi
Lista deFiguras...
"""""""vii
Lista de
Tabela
""""""""""viii
Capítulo 1-
Introdugão...
""""1
1.1 ConsideraçõesIniciais...,
1.2 Definição do Problema...I
3 5 1.3Motivação...,.
4.1
lnfrodução...
4.2 l:ntmacção
Dinâmica...
4.2.1 Redes Sociais (SNS - SocialNetworking
Site)...
4.3 Análise de Sentimentos(AS)...
4.3.1 Objectivos da Anáüse de
Sentimentos...
4.4 Análise deObjectividade...
4.5 Análise deSubjectividade...
4.6 Níveis de Análise 4.6.1 AS a Nível de Documento 4.6.2 ASaNível
de Frases... 4.6.3 AS Baseadas emAspectos...
4.6.4 ASComparativa...
4.6.5 AS para Aqüsição Léxico
4.6.6 Abodagem baseada em dicioniário. . . .
4.6.7 Abordagem baseada em Corpus.
4.7
Áseasde Aplicação4.8 Desafros de
4S...
4.9 Conclusões do Capítulo....
Capítulo 5- Protótipo Análise de Sentimentos em textos. 5.1 Introdução... 5.2 Protótipo 5.2.2 Corpus 5.2.3 Etiquetage,m de
texto...
5.2.4 Descrição do Experiências.... 5.3 Resultados e Modelo ..58 ....58 .54 .67 73 .59 ...66 ..69...70
...71
...72
...72
...75
74 74 76 80...76
....77 ..79 ..83 87 5.3.1Modelo...
875.4 Conclusões do Capítulo.... Capítulo 6- Considerações Finais 6.1 Considerações... 6. 1.
I
Trabalhos Futuros... 6.1.2 Recomendações ReferênciasBibliogúficas...
.94 97...97
101r0l
103tx
Capítulo
I
Introdução
Neste Capítulo são apresentados os aspectos introdutórios e elementares do projecto e
realiza-se o enquadramento da tese em referência ao problema tratado ou a solucionaÍ, a
sua delimitação,
os
objectivos as metodologias paraa
sua realizaçáo, assimcomo
ohorizonte organizacional ou estruturante da tese.
1.1 Considerações
Iniciais
Existe uma dinâmica acelerada na produção
e
armazeÍLamento de dados estruturados, semi-estruturadose
não
estruturadosdisponíveis
sobretudona forma digital
e
em diversasfontes
e
localizações remotas,algumas
orgarnzações possuemTrilhões
deregistos e diariamente são acedidos para pesquisas ou transacções electónicas como é o
caso
do
Google,
Yúoo,
YouTube, Amazon etc.o
que
contibui
com
aumento significativo do conteúdo, as informações que afinazenam estElo na ordem de milhões deTerabytes. Para termos
ideia
estevolume
cresceou
aumenta deforma
exponencial aEstudo Sobre
Análise de Sentimentos
em
textos
Página
l2
das Tecnologias de Informagão e Comunicação
(TICs).
Afortunadamente a produção eaÍmazemaffrcnto não representa nenhum problema no contexto actual, porque os meios de suporte existentes possuem capacidades paÍa
tal.
Porém a capacidade de produção eaÍmazeÍLamento de conteúdo é extremamente superior a capacidade de interpretação e
extracção de conhecimentos nos dados. Com vistas a
dimuir o
fosso na interpretação eexüacção
de coúecimentos,
as pesquisase
experiências recentes concentram-se emtraçar
liúas
mestrese
estratégiasviáveis paÍa
a
realizaçáodesta
taref4
o
quepossibilitou
a
concepçãoe
desenvolvimentode
técnicas, métodos
e
ferramentas especializadas,cujos
alicercesprincipais
assentamna
conjunçãomultidisciplinar
deiâreas
tais como: Informática
Estatística,Linguística
e
Ciência
Cognitivas
etc. A
principal
actividade desde processoé a
mineraçãoe
paraa
sua realizaçáo requer acombinação de vrárias técnicas e métodos Computacionais e Estatísticos e.g. Técnicas de
Base
de
Dados; Inteligência
Artificial
(e.g.
Aprendizagem automática, AbordagensEvolutivas, Simbólica
e
Conexionista),
Métodos
Estatística,
Recoúecimento
dePadrões, Recuperação de informação etc.
A
busca de conhecimento em textos consiste em extrair informações relevantes, padrõese
anomaliasou
tendênciasem
grandesvolumes de textos
simi-estrufuradosou
não estruturados disponíveisem
LinguagemNatural
sobretudo atravésde um
processo automático, suas bases advém da mineração de dados, com uma diferenga de que esteúltimo
procura descobrir padrões úteis em fontes de dados estruturados.A
realização da Mineraçãode Texto
(MT)
somenteé
possívelcom
auxílio ou
apoio de
técnicas de Aprendizagem automática(AM)
e Processamento em linguagemNatural @LN),
áreasde especialização de Inteligência
Artificial (IA).
Esta tarefa permite sobretudo recuperaÍinformações,
extrair
dados, sumarizar
documentos,
descobú
padrões
ocultos, associações e regÍas e fundamentalmente efecfuar análise quantitativa e qualitativa que permite a tomada de decisões com base na interpretação dos resultados obtidos.Os
dados
não
estruturados sempreforam em
termos
de
volumes
superiores aosestruturados actualmente
dado
a
suafacilidade
de
produçãoe
aÍÍnazenamentoe
aimperiosa
necessidadedo
seu
tatamento, várias técnicas
e
aplicações
foram desenvolvidase
como entadas fontes incluem: emails, textos
livres
obtidos
somoresútados de pesquisas, arquivos eletrônicas gerados por editores de textos, páginas da Internet onde existem diversidade de publicações, campos textuais em bases de dados, documentos eletrônicos digitalizados
a
partiÍ
de papéis,fóruns
de discussões, médias sociaise
etc. Pesquisas recentes apontam que 80por
centodo
conteúdoonline
assim como tambémo
equivalente emvolume
de dados guardado pelas corporações não éestruturado [79].
O foco do projecto é realizar um esfudo das abordagens referentes a sistemas e técnicas actuais utilizadas na descoberta de conhecimentos e Análise de Sentimentos com
intuito
de implementar um protótipo de Avaliação de Opiniões em textos. Para arealização deexperiências e obtenção dos resultados dois coipura foram utilizados nomeadamente o SentiCorpus-pt e Review
Movie
como entadas paÍa arealização da tarefa com auxílio de algoritmos supervisonados.A
nossa abordagem é avaliar os sentimentos contidos nos dois corpura com aplicação dos algoritmos Naive Bayes e Máxima Entropia, de formas a comparar a eficiência da avaliagão. Outrossim, também é feita o casamento de termoslinguísticos
com vista
a
melhorar
a
performancedo
classificador
em
função
da utilizaçáo deÍiltros
como Stopworàse
o
métodoou
modelo Balsa de Palavras comolinha de
basee
técnicasde
Bigrama
e
uÍilização
de
melhores características para aumentar o desempeúo e a precisão do modelo.1.2
DeÍinição
do
Problema
Qualquer
oryaidlzaçáo actualmentelida
com
um
grandevolume
de
informações em diferentes formatos respeitante aos seus negóciosou
opiniões de fontes externas que podem ser de parceiros ou concorrentes, estas informagões podem ser constifuídos por expressões que vão desde pequenos comentários, opiniões direitas e indirectas, aquelas expressaspelos
actores formalizadoresde
opiniões,
ou
outros
expostosem
liwos,
textos,jornais ou
outros meios supracitados, mantidos localmenteou
remotamente. É importante frisar que existem várias indagações e incógnitas cujas respostas são dificeis de serem fornecidas. Vejamos a seguir alguns exemplos:l.
Que
necessidadesreais
da
organrzaçãoas
informagões
(i.e. de
concorentes, parceiros, ou da própria organrzaçáo) guardadas ou geradas atedem?Estudo Sobre Análise de Sentimentos em textos Página
l4
2.
Qual tem sido o proveito ouo
beneficio que essas informações têm proporcionado na tomada de decisões instituicionais?3.
As informações não estruturadas são convertidas num formato propício constituindo padrão, formas afacilitar
a análise e descoberta de conhecimento?4.
É possível termos uma visão clara do que estiá a pensar o cliente e a concorrência em relação aos nossos negócios?5.
É
possível saber seum
determinado trabalhoé
integralmentedo
autor
quediz
areferência?
Estas perguntas e outras mais podem ser respondidas
com
autilizaçáo da ferramenta de.análise
de
sentimentos,que
é
um
tema de
realce nas
pesquisasmais
recentes erepresenta
uma
preocupação prementeno
contexto
geral
e
nas
novas formas
degovernação da Internet.
A
sua aplicação não é uma tarefa têÍotrivial,
porque lida-se com emoçõesque
sãoparte integral de como os
humanos reagema
estímulos externos, certos acontecimentos ou se comunicam como
mundo externo,o
que acontece atravésdafalu
escrita expressões faciais, gestos etc.Uma
frasetem
uma
força
extremaem
modificar um
ceniírio,
quepode
passaÍ
defavorável para
desfavorávelse difundida pelas
médias actuaise
tambémpode
serpertinente
a
diversas entidadese
determinara
emoção invocadapor
uma
entidade. Outrossima
difusão de informações nos moldes actuais pode ser benéfica para uns eprejudicial
para outros e.g.
feita
através
de
emails,
mensagenspor
telemóveis, comenüários na Web ou através de médias sociais (microblogs, tw'itter, facebook etc.), despertando interessede vários
participantesem
fracçõesde
segundose
gerando diversos sentimentos e opiniões.Os sistemas acfuais de análise e técnicas existentes
focam
sobretudo nos sentimentos disponíveisem
médias sociaise utilizam
sob
grande medidatécnica de
propósitos gerais de mineração de dados, outrossim,a maioria
dos corpus disponíveis para esteefeito esttlo em língua Inglesa, logo requer a necessidade de implementações em outras
línguas
dadaa
importânciade
solugõescom
esta naturezae
a
universalidadeda
sua1.3
Motivação
Desde tempos remotos a informação
foi
e continua a ser um activo importantíssimo emquailquer
organizaçõesou
indivíduo. Os
seus detentores sempre apresentam-se na vanguaÍda em copaÍação a aqueles que não a possuem, ou em contraste as que a detémmais
que
não
a
exploram
o
suficiente
ou
eficientementepara auxilia-los
a
tomar decisões que convergem a direccionar os negócios, anseios ou na realizaçáo efectiva do planeamento, parao
efeito a
análise paÍaa
descobertade
coúecimento
possibilita
aprevisibilidade, além
de
forneceruma
grandeprobúilidade
extremade
acertos nasdecisões a tomar, interesse
o
conhencimentooculto
sobreos
seus negócios, objectos, personalidade etc.As
pesquisasacfuais
apontamuma corrida
desenfreadana
tentativa
de
encontar
soluçõescomo
saídapara
a
extracçãoou
cpleccionar informações
existentes em diversas fontes (p.e.em
sítios,fóruns, comenúrios
emjornais
online,
microblogs, eredes sociais etc.) de maneira automática e outras ferramentas de aniílise com emprego de diversas técnicas, mecanismos e métodos de classificação ou agrupamento aplicados
a
mútiplas
línguascom
vistasà
obtençãodo
conhecimento sobre certos assuntos de interesse p.e. Eleições, produtos, objectos, personalidades políticas etc. Porém o desafio é amplo, logo os estudos indicam que não existe, todavia uma linguagem padrão ou um dicionrâriopaÍa
a
classificaçãoe
análisede
documentossemi-esfuturados
ou
nãoestrufurados
numa
perspectiva
ampla
em
termos
quantitativos, tangente
amultilinguagens,
devido
a
factores
t.c.
heterogeneidade,peculiaridades,
aspectos culturais, estruturais e à semântica dos componentes intrisecaa
cada linguagem, assimcomo
a
ampla
diversidadede
sinónimos, lexemas associadosa
determinadas frases lógicas, a dinâmica e a forma da sua produção envolvendo gírias e erros associados, em função dos níveis de especialização e a diversidade dos seus produtores e a dinâmica da produção, além da ambiguidadenativa,
que caracteriza as lingaagens naturais,o
quesem
sombrasa
dúvidastorna a
tarefa
de
descobertacoúecimento
e
análise mais complexa.Estudo Sobre Análise de Sentimentos em textos Página
l6
Em
resumo
as
abordagens estudadasnão
descrevemou
fornecem
uma
linguagem padrão, métodoou
sistema para análise de documentos detexto
e,por
conseguinte àsseguintes perguntas não são tÍio fáceis de serem
."tpot
àid^t
1)
É possível desmistifrcar adependência sintáctica e semântica de cada linguagem deforma a criar um
mecanismo de análise detexto
não estruturadoou
semi-estruturado padrão e multilíngue?2)
As
técnicase
métodos actuaisde
classificaçãode
opiniões basedostanto
nascaracterísticas sintacticas como semânticas comportam-se de
forma
semelhantena
análisede
qualquer
documentode texto
e
os
resultadosobtidos
seriam semelhantes?3)
A
precisão dos métodos actuaisde
análise detexto pode
ser melhorada para proporcionar resultados com uma margem de erro ínfima?4)
Os
actuais
sistemastêm
a
capacidadede
extrair
documentos
de
forma automática edistinguir
características relevantes e não relevantes em quaisquer corporae
fazerà
análisede forma eficiente
e
efrcazem
qualquerlíngua
ou idioma?5)
Os resultados obtidos em qualquer língua se comparados com os obtidos noutras línguas e comaltilização
dos mesmosalgoritnos
são equivalentes?As
respostas a estas indagações serão respondidas ao longo do desenvolvimento deste projecto. O campo análise de sentimentos esta na infância e precisa ser explorada com acriação de técnicas
e
métodos que proporcionam vantagens técnicase
facilidades na elaboragão e reúizaçáo das tarefas.1.4
Objectivos
Gerais
A
presente tese tem como objectivos centrais fazer lurrra abordagem sucinta as técnicas esistemas actuais de análise de sentimentos e descoberta de conhecimento com vistas a
construir
um
protótipo
de
análisede
opiniõesem textos,
apoiado pelas técnicas deinteligência
artificial,
mineração de dados e textos, com vistasa
maÍcaÍ e classificar asubjectividade e a polaridade
(positiv4
negativa ou neutra) nos texto, de formas a obter respostasse
expressam sentimentosnegativos
ou
positivos,
em
relação
ao
um determinado assuntoou
universo de discurso p.e. das notícias quefalam do
desportopodemos retirar um subconjunto das frases que de facto falam destas como pilares para
a classificação.
1.4.1
Objectivos
EspecíÍicos
Para
a
realização desteprojecto
faz-sea
abordageme
esfudos concentando-se emquato
pontos fundamentais :1-
Estudar
e
abordar
as
técnicase
métodosde
mineraçãode
dados
e
textos utilizadas paÍa a análise de dados e opiniões ou sentimentos no contextoac,tnl;
2-
Estudar e fazer abordagem dos sistemas actuais de análise de sentimentos;3-
Implementar umprotótipo
para a análise de opiniões ou sentimentos disponíveisem médias electronicas;
4-
Produzir
um
material
guia de
referênciapara as
futuras
implementações econsultas a comunidade académica.
1.5
Metodologias
de
Investigação
A
identificação e aniílise de sentimentos é uma tarefa rárdua atendendo à natureza dos dados e justificada pela dinâmica da sua produção e volume caracteristico. Imaginemoso
seguinte, actualmente grande parte dos serviçosde
governose
co{porações que sepresam são fornecidos de
forma
online.Alguns
gov€rnos possuem bibliotecas digitais para guardar as informações veja a dimensão das informações que contém édificil
de seimaginar.
Assim os
métodos convencionaisdificilmente
dariam
suporteeficiente
a análise e descoberta de conhecimento, veja quea
identificação de sentimentos não seresume apenas a análise das classes, frases, ou composição gramatical, mais também o contexto e
o
comporüamento das entidades em função de aspectos linguísticos.Não
ésupressa que
o
método correcto parao
efeito reveste-seno
foco principal
que será aexploração
de
suas propriedades fundamentais, atravésde
Detecgãoe
Análise
de Subjectividade em virtude de que o estilo das frases pode ser objectivo ou subjectivo e a Análise de Polaridade pode serpositiv4
negativa ou neutra.Estudo Sobre
Análise de Sentimentos
em
textos
Página
l8
O
método
utilizado
paraa
realizaçãoda Análise de
Sentimentos nesteprojecto
ébaseada
nas
técnicas Aprendizagem automática,
e
Processamentoem
LinguagemNatural e
utilizou-se
especificamenteos
algoriünos
supervisionadosNaive
Bayes
eMráxima Entropia. Outra técnica de realce
utilizada
paÍaa
tarefa de processamento eanálise
dos
Corpusé
o
Bolsa de
Palavras,que
consisteem
construir
um
vector
determos
e
associa-losa
frequência
de
sua
ocorrênciano
texto, para optimizar
osresultados fez-se aplicação das técnicas
filtragem
e
Bigrama
e
subsequentemente, a construção de modelos de treinamente e consequentemente arealização de teste com asmelhores
característicaspara
obtençãode
melhores
ganhos,cujas
principais
fasesenvolvidas
na
rcaliz-ação.da
tarefa são:
Extracão
de
Inputs;
Pré-Processamento;Extracção
de
Subjectividade;
Extracção
de
Características;
Classificação
eVisualização.
1.6
Organtzaçáo
da Tese
A
tese
estrí estruturadaou
orgaruzada fundamentalmenteem cinco
capítulos
que exploram de forma evolutivas e apresentam os aspectos concepfuais e práticos, descritos a seguir:1.
Capítulo
I
apresentaos
aspectosintrodutórios
elementaÍes, apresentando o enquadramentoda tese em
referência
ao
problema
a
ser
resolvido
a
suadelimitação,
os
objectivos, as
metodologiaspara
a
sua
realizaçáoe a
linha organrz;ativa;2.
Capítulo2
temo
focoprincipal
voltado na apresentação dos estudos e soluções recentes a nível de aplicações e sistemas que fazem abordagem a Descoberta deConhecimento
e
Análise
de
Sentimentos,elucidando
fundamentalmente astécnicas, métodos, ferramentas e etapas següdos narealização dos projectos;
3.
Capífulo
3
apresentaos
aspectosteóricos
elementarespaÍa
o
processo de aquisição ou descoberta de conhecimento, mineração de dados e textos em geral,as
fases
paÍa
a
realizaçáodas tarefas
das
distintas
fases,assim
como
osmecanismos e métodos de extracção e pré-processamento de dados, mecanismo
- hn^rc60 do
- obj6tlwoa ېEIa
- MddoloslEs
- O.Aanltagáo dâ
descrição
dos
algorifrnos
fundamentalmenteutilizados
para
a
realização da tarefa de mineração;4.
Capítulo
4
faz
abordagemgeral
do
processo
de
análise
de
sentimentos, descrevendo a sua importÍincia e o seu contributo, outrossim, apresenta as fases,e a
arquitecturageral
de
anrálisede
sentimentoe
descreve taxativamente osníveis de incidência sobre as quais a aruílise pode se cenlr:alizar, assim como as
areas de aplicação e os principais desafios que a area apresenta;
5.
Capítulo
5
apresentao
protótipo
elaborado,objecto
do
presenteprojecto,
ostestes
e
os
resultados
alcançados
com
a
utilizaçáo
dos
algoritmos supervisionados.São também descritos
nestecapítulo
todos os
recursos einstrumentos
utilizados paÍa
a
realizaçãodo
trabalho, descrevendo,além
dasferramentas e linguagens utilizados no contexto prático;
6.
Capítulo
6
apresenta as consideraçõesfinais, os
principai.sconÍibutos,
lições aprendidas, recomendações e trabalhos futuros.-MlIoÍ&dqr.na -&Íhlrao.a-MD -P.GÉEodoád@ -P.cÕFd§d4dHo .ePt.M#d.
Wr
r|IEFímr
-6nald6Éê. -Rêcôm6ãdêç6€5Figura 1.1: Estrutura da Tese
A
figura
1.1 apresentaa
estrutura detalha da tese,na qual
estêÍo espelhados todos oscapítulos que a compõem, assim como as principais sessões de cada capítuIo. O capítulo
innodutório
por
exemplo
apresentaas
seguintes sessões: introduçãoque
aborda osaspectos introdutórios;
A
deÍinição deproblem4
onde estiÍo catalogados os aspectos aosolucionar ao longo do desenvolvimento da tese;
A
motivação, na qual são ilucidados osaspectos
que
levarama
idealizaruma
solugão parao
contexto,objecto
do
presente trabalho; os objectivos que indicamo
norte a ser atingindo;As
metodologias aplicadaspaÍa
a
consecuçãodos
objectivos;
o
estado
da
arte
que
espelha
os
trabalhos desenvolvidos nesta áreae a
sua relação como
projecto desenvolvidoe
finalmente a última secção apresenta a estrufura organaacional da tese.-Pc..otF-.cce§b+ -Âb'&.metútrfu -ute+e!&'L-' ,sEru.B@É. @ud!14&dê06ô -lÚe'd,*dé -aM há Áváe& da obldváeebl€tú-' -e*bló' -arêâ3d6 aeâ&
Estudo Sobre Análise de Sentimentos em textos Página
110Capitulo
2
Estado
da
Arte
2.1 Considerações
Iniciais
Este capítulo faz uma abordagem sucinta a soluções e esfudos mais recentes elaboradas
na
área
objecto
de
estudo
e
as
iíreas
co-relecionadas,elucidando
os
principais mecanismo, técnicas, métodose a
visão de
cada projecto, assimcomo
o
processo eetapas envolvidos
na
sua realizaçáo,a nível de
aplicações, sistemase
tecnologias debase utilizadas.
O
foco principal
considera sobretudoos
estudosque
abordam aproblemática de descoberta de conhecimento e análise de sentimentos em tgxtos.
2.2 Mineração
deTextos
Livres
Em
[3]
propõe-se uma estratégia consubstanciada na mineragão de textos livres escritosem
Português
independentesde
domínio.
A
aniílise
baseia-seno
estudo
daspropriedades estruturais
linguísticos
(i.e.
morfologia
e
sintaxe),com vista
a
extrairinformação
útil
em
documentostextuais
não
estruturadosque
tem
como
principalcaracterística
a
escrita informal,
com
possível
presença
de
erros
ortogtáficos, abreviações, gírias, símbolos, erros gramaticais e pontuação incorrecta ou a falta destqnormalmente escritos por utilizadores com níveis de conhecimentos distintos
[3].
Para oefeito
faz-se a análise gramatical paÍa a identificação das classes associadas às palawas(i.e.
Substantivos,Verbos, Adjectivos,
Artigos,
Pronomes,
Numeral,
Advérbios, Preposições, Conjunção e Interjeição) contidos no texto e análise sintactica que define afunção que as palavras desempeúam dentro da oração p.e. Sujeito,
Adjunto
Adverbial, Objecto Directo e Indirecto, ComplementoNominal,
Aposto,Vocativo,
Predicado etc. Paraa
realização do processo da análiseúrliza
uma metodologia compostapor
quatro etapasprincipais:
l)
Configuração;2)
Pré-Processamento;3)
Processamento e4)
Pós-Processamento.-
Na
fase de Configuraçáo:diz
respeito à formaçãoinicial
da base de dados (Léxico), que contém entre outras informações, termose
entidades nomeadas(i.e.
palawas da classede
substantivospróprios
e
definem
nomesde
lugares, pessoas, organizações, acontecimentos, objectos, obras etc.).- Na fase de Pré-Processamento: faz-se a verificação preliminar do conteúdo do documento que inicialmente é convertido em tokens.
Um
token consiste de um par ordenado (valor,classe).
A
classe indica anattreza da informação contida num valor.-
Na
fasede
processamento: faz-sea
Mineraçãode
Texto,
na qual
o
documento ésumarizado e, com auxílio do Léxico, é realizado o processo de Análise Morfológica dos
termos, complementado com a Análise Sintáctica dos termos do documento de formas a
identificar as
palavrase
frasesmais
importantesde um
documentoou
conjunto
dedocumentos e gera também um resumo ou sumário. Esse sumário pode dar uma visão geral
do
conjunto
áe
documentosou
pode ainda
salientaras
partesmais
importantes ouinteressantes, em seguida faz-se
a
identificação dos períodos que dividemo
documento sumarizado em orações. Cada período identificado é submetido aos processos de remoção de Stopwords e Stemming, na sequência é feita a classificação dos termos com a ajuda deheurísticas de categorizaçáo dos termos. Por
fim,
na fase de Pós-Processamento os dadosadquiridos nas etapas anteriores são transformados, carregados e armazenados numa Data
Mart
que faza
gestáo da informação textual extraída de vários portais de consumidores deacordo
com as
necessidadesdos
utilizadorese
dá
suporteà
descobertade
novasinformações.
No final
deste trabalho, descreve-sea
forma comoa
proposta pode ser estendida paÍa aelaboração de uma estratégia que permite descobrir relações entre os termos dos textos submetidos
à
análise. Tambémse
vislumbra
os
ganhos previstoscom
a
construçãoEstudo Sobre Análise de Sentimentos em textos Página
112doravante de um Módulo de Polarização para enriquecer os resultados a serem obtidos com
base numa nova perspectiva de análise e avaliação dos dados.
2.3 Métodos
eRecursos
para Análise
de
Sentimentos
Em
[a]
são apresentados alguns métodos e recursos para análise de sentimentos em vários Documentos escritosem
diferentes línguas.A
abordagem baseia-se amplamente namineração de características
e
no paradigma de sumarização cuja teoriafoi
inicialmente concebida e descrita em[9]
e concluída eml22],
além de fazer a extensão das técnicas emétodos paÍa
a
detecçãoe
classificação automática de sentimentos expressosde
forma directa, indirecta ou explícita em diferentes tipos de textos e idiomas, aplicao
métododa
análise
de
sentimentosque se
propõe
no
contexto
de
outras tarefas
de
PLN
(processamentoem
Linguagens
Naturais)
e.g.
busca
de
respostas
e
resumos automáticas.Utiliza
a
aprendiz-agem automática(AM)
de forma
automática como padrãopara as
pesquisas, sobrefudonos
conjuntosde
dadosque
têm
centenas ou milharesde
características,por
exemplo,o
processamentoe
càtegoiz.açãode
textosextaídos
na Internet.A
selecção de atributos, variáveis ou características é uma técnica em que são escolhidas as amostras das características mais relevantes e representativas para um dado problema num universo de características de um conjunto de dados, alémde propor
um
novo
esquemade
anotaçãoe
novoscotporq
quevisam
padroruzan arotulagem de opiniões, de modo que diferentes tipos de comentarios directos, indirectos,
implícitos
e
as
diferentes maneiras
de
expressaropiniões através
de
declarações subjectivasou
objectivas
possamser rotulados
ou
etiquetados correctamente, paraoutras
línguas.A
análisede
sentimentoé
avaliadacom
baseno
contexto
de
um determinado produto.Utiliza a
abordagem baseadana
extracçãode
características eparadigma de sumarização de textos e documentos cujas bases teóricas foram descritos
por
119,20,21] respectivamente,cria um
método mineraçãode
textos
baseados nascaracterísticas explícitas para recomendar produtos com base nas pontuações obtidas na quantificação de diferentes características na etapa de
MT
(mineração de texto), atravésda
extensãodo
método apresentadoem
122f,
cujo princípio
de
funcionamentoé
acomparação
dos
detalhestécnicos
do
produto em função de
medição
de
termos relacionados (i.e. aplicagão de distância de normalização) e a análise semântica latente.O método de mineragão e análise de sentimentos em produtos consiste em duas etapas
distintas: pré-processamento e processamento
principal.
Cada etapa contém uma série de submodulos eutiliza
ferramentas, linguagens e diferentes recursos.- Na
primeira
etapa parte-sedo princípio
de que seo
utilizador faz
uma consulta do produto que deseja comprar,o
motor de busca recupera uma série de documentos que contêm as referências do produto em questão em diferentes idiomas, em seguida realiza duas operações paralelas:a
primeira faz
a
filtragem dos
comentáriosutilizando
o softwareidentificador
deidioma
Lexteke
obtém resultadosem
Inglêse
Espanhol.A
segunda operação determinaa
categoriado
produto
(p.
e.
câmaradigital,
laptops, impressoras,liwos
etc.)
e
determinadaa
categoria, procede-se paraa
extracção dascaracterísticas específicas
do produto
e
atributosdo produto
através dautilização
deWordNet
e
o
ConceptNete
mapeamento correspondenteem
Espanholutilizando
o EuroWordNer (i.e. base de dados com wordnets para v:árias línguas Europeias), com asclasses, características
e
atributos tem-se
o
que
é
consideradocomo núcleo
de característicase
atributos independentes do produto cuja importância determinaa
suafrequência de ocorrência no universo de pesquisa;
- A
segunda fase consisteno
processamentoprincipal,
nesta fase duas entradas declientes uma em Espanhol e outra em Inglês são executados em paralelo pelo sistema e
como
saídaé
gerudaa
sumarização.A
análise começacom
filtro
de
acordocom
alinguagem e para cada linguagem
utiliza
uma ferramenta especializadapaÍaaresolução anaforica (t.c. JavaRÁP para Inglês e Supar para Espanhol), também faz-se a separaçãodas frases do texto de acordo com as características de interesse, em seguid4 utiliza-se
um
detector ou identificador de entidade nomeadas paradistinguir
nomes de produtos, marcas ou lojas, para estaúltima
tarefautiliza-se como ferramenta o LingPipe que éup
conjunto
de
bibliotecas Java para
a
realizaçáo
de
análise
em
Língua
Natural.Completadaatarefa
de identificação de frasese
atributos, procede-sea
seguircom
aexfiacção
com
o
propósito
de
processar apenas características referenciados pelo produto, e também faz-se oparser
para obter aestruflra
das frases e as dependências entre os componentes. Para esta finalidade são utilizadosa
ferramentasMinipar
ll9l
para Inglês eFreeling
para Espanhol. Epor
fim
de modo aatribuir
a polaridade para cada um dos atributos empregam-se os métodos ou algoritmos de classificação Support Vector Machines-
Optimização mínima sequencial(SVM)
e
aprendizagem automática [25], assim como a distáncia de Normalizaçáo de Google(NGD). SVM
é umalgoritno
Estudo Sobre
Análise de Sentimentos
em
textos
Página
114referência
foi
propostapor
1241,O
algoritmo
tenta estimaruma flrnçãof:Ro
+
{t1}
utilizando um conjunto de treinamento, onde cada elemento deste conjunto é um vector N-Dimensional(xr,n) E R'
x
{+tl
de formas que estafunção
será capazde classificar uma nova instância(x,y) ou
sejaf(x)=y.
Jáa
abordagem baseadaem
aprendizagemautomática
utlliza
classificadorespara
separarou
identificar
frases
de
interesse. Técnicas de aprendizagem automática são utilizadas emrecoúecimento
automático determos, que são projectadas para atender uma classe específica de entidades e
utilizam
dadosde
treinamentopara
aprenderem
função das
característicasque
sãoúteis
erelevantes no reconhecimento e a classificação de termos [26].
NGD
tem por finalidade medir e proporcionar como resultado em função de determinar quãopróximo
estarão ostermos, no espaço dos documentos indexados pela Google. É uma amostra robusta que pode ser tomada como corpus' representativo da Língua actual.
O
algoritrno de cálculoindica
que se desejamedir
o NGD
dos termos,p.e.
se querÍnos consultar os termos Professor eAluno
devemos pesquisar na Google sobre a quantidade de documentos que contém o primeiro termo, e depoiso
segundo e finalmente ambos os termos,paratal
éutilizado
uma
formula
parao
ciálculoda
distância, computa-sea
distânciaenüe
ostérminos a avaliar, paÍa a obtenção dos resultados.
No
final do
seu trabalho,
vislumbra
a
possibilidade
de
abordar
um
módulo
paraexffacção automática de taxonomia
e
extensãodo
sistema de anotações de revisões eresumo noutros idiomas para além de Inglês e Espanhol.
2.4
AnálJriseAutomática
de
sentimentos
em
Documentos
Em
p7l
é
apresentadauma
abordagempara
análise automáticade
sentimentos em documentos,que
cobrevárias
tarefasde
análisede
sentimentospara ilustrar
novas mudanças e oportunidades, descreve como modelar diferentes tipos de relacionamentos em várias abordagens para problemas de análise de sentimentos ou modelos que podemter
implicaçõesfora
desta rárea. Faz a classificação de polaridade através da análise eclassificação de informações textuais de
filmes.
Considera viírias abordagens incluindo algumas que aplicam as técnicas de categorizaçáo subjectiva do texto, descreve tambémuma
abordagem baseadaem
técnicas eficientespara
encontraro
custo mínimo
nosgráÍicos
que
incorporam relações
em nível
de
frases. Também considera
metaalgoritmos para explorar
relacionamentosexplícitos entre
classesou
problemas de classificagão multi-classe.Faz a classificação da polaridade em documentos aplicando atécnica ou método
de
aprendizagem automática, formalmente para a classificagãoutiliza
o
algoritmo
Naive
Bayes
e
Máxima Entropia
e
Support
Vector
Machine.
Para
aavaliação ou análise de polaridades
utiliza
uma base de dados de documentos na qual osdados são subdivididos
em três
áreasde igual
tamanhoe
paraa
marcaçãode
textoutilizao
formatoÍ{TML
(Hiper
Text Mark-upLanguage)'de
formasa
separÍr os itensléxicos
e
aplicaçãodo
métodoN-Grama
paÍaa
caracteizaçãoe
desambiguação daspalavras utiliza o programa Oltver Mason's Qtag program.
Por
fim
como
extensõesao
trabalho propõe
o
desenvolvimento doravantede
um conjunto de dados que cobremo
alcance, de modo a representar consultas comintuito
de retornarem páginas Webs completas pesquisadas no motor de busca qualquer.2.5
Passospara Realização
deAnáIise
de
Sentimento
Multiligue
Em [28] é apresentada uma abordagem de quatro passos para arealizaçào da Análise de Sentimentos
Multilíngue
em médias sociais, cujas principais fase são:l)
Identificação da Língua;2)
Part-Of-Speech (POS);3)
Detecção de subjectividade e;4)
Detecção de Polaridade. Cadapasso aborda um sub-problema e descrever o problema separadamente e apresenta uma solução para cada um destes. O processo éfeito
da seguinte maneir4 a entradaé
constituídapor
pequenostextos
não
estruturados,as
quais
não
passam conhecimentoprévio,
nem mesmoo
meio social do qual
seoriginam.
A
cada passomais informações são adicionadas e como saídas obtém-se a polaridade,
o
queimplica
que apenas textos subjectivos sejam processados pelo passo de detecção da polaridade,porque
é
sabido
de
que
os
textos
objectivos
por
defeito não
possuem qualquer polaridade.A
lógica que estiá por trás dautiliz-ação da abordagem de quatro passos é que podemosmais
especificamenteconstruir modelos
numa
etapaposterior,
quando o conhecimentoé
apresentado nos passos anteriores.A
separaçãoda
subjectividade edetecção de polaridade é inspirada
eml29l.
'HTML:é uma linguagem que informa ao navegador que elementos estElo na
página
p.e.arqúvos
(imagens, sons) que eles contéme
onde eles esti[o p.e.,um
certotrecho
éEstudo Sobre Análise de Sentimentos em textos Página
116Para a identificação da linguagem propõe o
algorifno LIGA
que capturaa
gÍaÍnát7ca dalinguagem
na
adição
da
ocorrência
de
características,através
da
utilização
deformalismo gráfico, incorpora
a
gramática
no
modelo,
entretanto
a
técnica
deProcessamento
de
Língua Natural
nomeadamente Part-Of-Speech(POS)
pode
serúilizada
paraauxiliar
as expressões regularesna
identificagão dos termos relevantes contidos numa frase.O
etiquetador POS consiste em rotular as palavras segundo a suaclasse gramatical normalmente
em:
substantivos,adjectivos, advérbios,
verbos
epreposigão, que são alguns exemplos de classes gramaticais
[30]. Regas
simples semPOS
é
um
tipo.
de regra
convencional
em que
o
desenvolvimentodo
padrão
édependente
do
domínio.
As
regÍas
apenascom
POS
utilizam
padrões POS
mais específicos visando extrair termos com baixa ocorrência de falsos positivos.As
regras com POS e termqs representativos utilizam-se de termos representativos (e.g. verbos ou palawas) paraidentificar
se uma frase contém ou não umtermo [30].
Para a tarefa dePOS-TAGg,'ng
utiliza-se
a
solução
TreeTagger desenvolvidapela
Universidade deStuttgart,
Paru a detecção de subjectividade aplica-se o AdaBoosls que utillza o modelo deAM
e para a detecção de polaridade propõe-se o algoritmo RBEM queutiliza
regras heurísticas para criar um modelo emissivo nos padrões.Cada estrutura pode ser estendida, modificada ou substituído para adequa-la a diferentes propósitos,
E
umpipitine
na qula a saída de um passo constitui a entrada do próximo passo i.e. não existe uma dependência operacional entre osalgoritnos,
mais sim entre os passos,isto
significa que alguns passos podem ser substituídos de alguma forma aolongo de entrada e peÍnanecerem nalguma saída, por exemplo, o passo de detecção de
subjectividade pode ser substituído
pelo
algoritmo Natve Bayes paru realizar em duas tarefas a classificagão de termos em subjectivo ou objectivo.2.6 Abordagem
Semânüca
para Análise
de
Sentimentos Automaticamente
Em [31] é apresentada uma abordagem semântica para análise de sentimentos em textos de forma automática, com base na classificação da linguagem tomado como referência paÍa
a
avaliação efectiva das frases, utiliza-se como referênciao
tabalho
apresentado em [33], que consiste em subdividir as tarefas emtês
subactividades interrelacionadas: 1) determinar se certia unidade da linguagem ésubjectiva;2)
determinar a orientação dapolaridade em função da subjectividade de unidades da língua; e
3)
determinar a força da orientação semântica. Desta maneira a análise é feita em função da unidade em que apesquisa é focada p.e. Palawa, frase ou textos completos,
o
sistema de análise focada nesta abordagem determina a polaridade do texto na sua plenitude, cuja pesquisainicial
para a classificação da polaridadefoi
dominante em duas abordagens nomeadamente: o modeloAM
popularizado descrito por[9]
e a outra que foca em palavras e frases como portadores de orientação semânticaou
SO (semanticorientation)
f341, que não é mais do que amédia da soma dos SOs das partes de um documento. Implementa ou rescrevea calculadora SO e adiciona a esta novas características com um dicionário e regÍas para
detecção
de
palawas
negativas, intensificação, modularidade, repetição
e
outros fenómenosque
afectama
orientação semânticai.e. Algoritmo
paÍa
a
contagem depalavras,
em
função
do
seu pesono texto, e
negação.Conshói
um
dicionrírio
em Espanhol análogo ao do Inglês, queinclui
adjectivos, substantivos, verbos, advérbios, eintensificadores, criando uma
lista de
157 palavrase
expressões baseadas nalista
emInglês. Com
este dicionrário três métodos diferentesforam
testadospaÍa
compaÍaÍ aperformance de corpus em Espanhol, no primeiro teste fez-se a tradução automática de Inglês para Espanhol preservando
o
valor
da orientação semânticada palawa,
paÍa a tradução automática empregam-sedois
métodos.O
primeiro
consistenum
dicioniáriobilingue online
onde são
extraídosas
primeiras definições
da
categoria
sintiíctica ignorando alguns casos de expressões com múltiplas palawas em ambas as línguas. O segundo método consiste na tradução automática e envolve simplesmentepluggins
ouum
dicionário Inglês apartir
do tradutor google e o resultadodo
analisador sintactico, novamente excluindo expressões com múltiplas palavras. Para o segundo métodocriou-se
o
dicionário com uma
lista
spanishdict.come
Íixou-se
manualmente as entradas erradas como é óbvio, ou seja, envolve a remoção de stopwords. Finalmente o terceiro método consiste em criar todos os dicionários desde o início.2.7 Utilização
de Técnicas
deAprendizagem Automática
Em [35]
é
feila
uma
abordagemque
utiliza
técnicasde
AM
no
reconhecimento deentidades nomeadas em Português
atavés
da comparação dos resultados obtidos com aaplicação
das
técnicas
de
AM
tanto
supervisionadoscomo
não
supervisionados nomeadamente:e.g Natve
Bayes,SVM
e a
árvore
de
decisão(Decísion Table)
noEstudo Sobre Análise de Sentimentos em textos Página
118processo de classificação das entidades nomeadas nos documentos escritos na Língua Portuguesa.Utilizatambém corpus disponíveis em [36], com anotações de POS, classes
gramaticais de cada palavra e entidades nomeadas associadas à palavra. Naive Bryes: é
por
sinal
o
classificadormais utilizado
considera que as entradas são independentes enfresi, o
que não ocorrena maioria
dos problemasou
casos práticos,i.e.
baseia-se numa premissa de ingenuidade, porém embora esseprincípio
seja mantidopor
defeitoao
trabalhaÍ com
este
algoritmo, ainda
assim
não
compromete
a
qualidade
dos resultados reportados pelo classificador. OSVM:
é uma técnicautilizadano
processo derecoúecimento
de padrões e regressão linear, baseada na utilização de kernels (núcleo)e de regras não-lineares.
A
ideia central é o núcleo é tido como o produto interno enüe o chamado vector de suporte eum
vector retirado do espaço de entrada. Os vectores desuporte são um subconjunto dos dados de treinamento [36]. Decision Table: é uma das
técnicas
mais
simplesde
aprendizado supervisionadoé
uma
dasmais
simplesde
seentender atendendo o seu
princípio
de funcionamento. Algumas tabelasutilizam
valores verdadeiros ou falso(*ue
oufalse)
na representagão de alternativas e condições (p.e. if-then-else). Outrayutilizam
alternativas numeradas (p.e. switch-case)e,
ainda existern aquelas, queutilizam
alógicafu?zy
(i.e. lógica difusa que apresenta vários níveis entre verdadeiroe falso) ou
representações probabilísticas para as alternativas condicionais1371.
2.8 Técnicas de
Mineração
de
Texto
e
Sistemas Especialistas
Em [38] é Abordada a aplicação de Técnicas de Mineração de Textos
(TMT)
e sistemas Especialistas (SE) na liquidação de processos trabalhistas.Utiliiam-se
asTMT
paÍa atarcfa de classificaçáo, e
definir
em Linguagem Convencional(LC)
e SE paradefinir
ospedidos fundamentados em freses
judiciais;
Identificar
o
resultado de cadaum
destespedidos
(i.e.
deferido
ou
indeferido);
Extrair
cadauma
das incidências
(reflexos) geradas pelos pedidos e CapturaÍ eventuais parâmetros para o cálculo evalor
de algumtipo
de pedido.O
SE éutilizado
para paÍa calcularo valor
associado à acção julgado como compensação ao cliente. As principais fases consistem em:l)
Aplicar
as técnicas relacionadas às tarefas de classificaçãoou
caÍegoização paraidentificar
quais pedidos (p.e.hora
extra,adicional de
perigosidade, equiparação salarial,ticket de
transporte, etc.) estão definidosna
fundamentaçãodo Exmo.
Jniz, cada fundamentação pode serdecomposta em uma oobolsa de palavras" extraida da frase, Com base nos métodos de
MT,
em que um grupo de o'bolsa de palavras" passa porum
algoritmo de aprendizado, utilizando técnicas de classificação, comoSVM,
Naive Bayes l3g,4}7,novas oobolsas depalavras"
poderão
ser
classificadas.Os
pedidos seriam
as
"classes"
e
estariam relacionadosàs
'obolsasde
palavras";
2)
vtihzar
Linguagens
Convencionais paraidentificar
se cada pedidofoi
deferido ou indeferido. Seo
pedidofoi
deferido,utilizar
tambémLC
ou
MT
para
capturaros
reflexos
e
outra
vez
LC
para
capturar outrosparâmetros
necessáriosao
cálculo;
3)
Passaras
informações
para
um
Sistema Especialista,via
uma
interface,
baseadanas regras obtidas
anteriormentecom
osespecialistas, e assim calculará o
valor
exacto da reclamação, também o que deverá ser pagoà
Previdência Social(INSS)
e à
Receita Federal(IRRF).
O
vínculo
decorre da necessidadede se fazer
cáiculosde forma
repetitiv4
objectivando rapidez, evitando elTos e a necessidade deutilizar
uma grande quantidade de regras, isto remete para osSistemas Especialistas (SE).
Propõe como extensões ao trabalho
a
criaçãoe
implementaçãodo módulo
cental
do sistema entreMT
e
SE,que
contemplaa
Identificação seo
pedido
foi
deferido
ou indeferido, isto pode serfeito
através de um programa de linguagem normal acoplado aum dicionário de dados (thesaurus), visto existirem várias palavras similares que tem o mesmo significado
tal
como: defere éigual
a deferimento, dou seguimento, é devido,etc...
E indefere é igual a indeferimento, nego seguimento, não é devido.2.9
Abordagem
Híbrida
de classiÍicação de dados
Em
[48] é Proposta uma nova abordagem para üatar o problema de pequenos disjuntos, onde a classificação é feita através de regras, que fundamentalmente são utilizadas para identificar um pequeno número de exemplos. Paratratu
o problema utiliza-seatécrica
de iárvore de decisão de maneiras a descobir regras de grandes disjuntos