Testes com Variações de Parâmetros nos Algoritmos de Classificação

4.5 Interface com o Usuário

5.4.2 Testes com Variações de Parâmetros nos Algoritmos de Classificação

Com o objetivo de verificar se a variação dos parâmetros usados em cada algoritmo de classificação poderia aumentar o desempenho do classificador, foram realizados experimentos com os melhores resultados obtidos nos testes de variação do pré-processamento 5.3, vistos na Seção 5.4.1.

Especificações e Resultados Algoritmo

Nº de Classes Pré-processamento Precisão Curva ROC Acertos

Decision Tree (J48) 3 classes PP1 e PP4 0,961 0,965 95,8621%

Decision Tree (J48) 4 classes PP1 e PP4 0,924 0,946 92,2619%

KNN 3 classes PP3 0,804 0,681 59,3103%

KNN 4 classes PP3 0,738 0,693 54,7619%

Naive Bayes 3 classes PP4 0,874 0,899 86,2069%

Naive Bayes 4 classes PP2 0,823 0,851 74,4048%

Random Forest 3 classes PP1 0,949 0,991 94,4828%

Random Forest 4 classes PP4 0,908 0,984 89,8810%

SVM (SMO) 3 classes PP1, PP2 e PP4 0.993 0,997 99,3103%

SVM (SMO) 4 classes PP1 e PP4 0,962 0,986 95,8333%

Table 5.3: Pré-processamento com Melhor Desempenho para cada Algoritmo

Em seguida, experiências foram realizadas com as variações das especificações presentes para cada algoritmo de classificação, possibilitando assim, a análise dos impactos que cada componente relacionado ao algoritmo poderia causar no resultado final. A seguir serão mostradas as descrições padrão dos algoritmos e os resultados das práticas efetuadas.

5.4.2.1 Decision Tree (J48)

Como apresentado na Tabela 5.3, os melhores resultados obtidos pelo algoritmo J48 foram tidos com o uso dos pré-processamentos PP1 e PP4, com precisão de 0,961 e Curva ROC de 0,965 para 3 classes e precisão de 0,924 e Curva ROC de 0,946 para 4 classes, que equivale a uma taxa de instâncias classificadas corretamente de 95,8621% e 92,2619% respectivamente.

A árvore gerada pela execução com 3 classes (Figura 5.10) obteve o mesmo resultado com PP1 e PP4, a única diferença foi no tempo necessário para gerar o modelo, que foi maior com o PP4 (0.7 segundos).

De acordo com a árvore de decisão com 3 classes, as palavras mais significativas encontradas foram rivotril para classe Anorexia, rivotril e toc para classe Toc e sons, filho e autistapara classe Autismo.

Na árvore com 4 classes (Figura 5.11), com o acréscimo da classe Esquizofrenia, a palavra lugaresse tornou a mais relevante da classe Anorexia, as palavras rivotril e toc continuaram

5.4. METODOLOGIA DE EXPERIMENTOS 65

Figure 5.10: Árvore de Decisão (J48) com o uso de 3 classes (Autoria Própria).

5.4. METODOLOGIA DE EXPERIMENTOS 66

como as mais significativas para classe Toc, com o acréscimo da palavra lugares. As palavras mais relevantes da classe Autismo continuaram as mesmas constadas na árvore com base em 3 classes e com o acréscimo da classe Esquizofrenia, essa teve como termo mais importante a própria palavra esquizofrenia. Através de breves leituras dos textos usados, foi possível perceber o quanto o remédio Rivotril foi citado para o tratamento de alguns transtornos como Anorexia e Transtorno Obsessivo Compulsivo. Os depoimentos relacionados ao Espectro Autista, na maior parte dos casos, são narrados por pais de pessoas com autismo e em diversos depoimentos os mesmos comentam sobre dificuldades, relativas a compreensão de sons, que seus filhos enfrentaram.

Dos parâmetros relativos ao algoritmo J48, descritos no Weka, podem ser citados: (1) confidenceFactore (2) minNumObj. O parâmetro confidenceFactor, por padrão possui o valor 0.25, e equivale ao fator de confiança utilizado para poda, enquanto que o parâmetro minNumObj condiz ao número mínimo de casos por folha, e tem por padrão o valor 2.

Para realização dos experimentos, o valor de confidenceFactor foi alterado para 0.1 e 0.5, e o valor de minNumObj para 1 e 10, respectivamente. O traço ’-’, presente em alguns espaços das tabelas, equivale a nenhuma mudança no valor da precisão e da Curva ROC.

Parâmetro Valor Precisão Curva ROC

confidenceFactor 0.1 - -

confidenceFactor 0.5 - -

minNumObj 1 menor (0.953) menor (0.954)

minNumObj 10 menor (0.902) menor (0.958)

Table 5.4: Resultados das Alterações de Parâmetros do Algoritmo J48 com PP4 e 3 Classes

Parâmetro Mudança Precisão Curva ROC

confidenceFactor 0.1 - -

confidenceFactor 0.5 - -

minNumObj 1 - maior (0.949)

minNumObj 10 menor (0.909) menor (0.961)

Table 5.5: Resultados das Alterações de Parâmetros do Algoritmo J48 com PP4 e 4 Classes

As modificações feitas nas especificações do algoritmo J48 não apresentaram melhorias significativas (Tabela 5.4 e Tabela 5.5). A alteração do valor do fator de confiança usado para a poda (confidenceFactor), tanto para um número inferior (0.1), quanto para um número superior (0.5) ao valor padrão, não proporcionou mudanças no desempenho do classificador. Um modesto aumento no valor da área da Curva ROC foi constatado ao se alterar o parâmetro correspondente ao menor número permitido de casos por folha (minNumObj) para o valor 1 no teste com 4 classes, porém, isso não trouxe melhorias na precisão do modelo. Ao contrário, as mudanças nesse parâmetro diminuíram a precisão e a Curva ROC dos demais casos.

5.4. METODOLOGIA DE EXPERIMENTOS 67

5.4.2.2 KNN

Os melhores resultados obtidos pelo algoritmo KNN, com distância Euclidiana, se deram com a utilização das especificações do pré-processamento PP3, onde alcançou precisão de 0,804 e Curva ROC de 0,681 para 3 classes e precisão de 0,738 e Curva ROC de 0,693 para 4 classes, que equivale a uma taxa de instâncias classificadas corretamente de 59,3103% e 54,7619% respectivamente.

Dentre os parâmetros do algoritmo KNN, podem ser mencionados: (1) knn, (2) Cross- Validatee (3) distanceWeighting. O parâmetro KNN por padrão recebe o valor 1 e refere-se ao

número de vizinhos que serão usados; O CrossValidate é responsável por selecionar o melhor valor k entre 1 e o valor especificado no parâmetro knn, porém vem desativado; E o parâmetro distanceWeightingresponsável por obter o método da distância de ponderação utilizada, por padrão não utiliza ponderação de distância .

Para realização dos experimentos, o valor de knn foi alterado para 2, 5 e 10; o CrossVali- datefoi ativado e o parâmetro distanceWeighting foi mudado para Weight by 1/distance e Weight by 1-distance.

Os experimentos praticados pela variação de parâmetros do algoritmo KNN, com 3 classes, mostrou mudanças em alguns dos resultados para determinadas medidas (Tabela 5.6):

Parâmetro Valor Precisão Curva ROC

knn 2 maior (0.831) maior (0.831)

knn 5 maior (0.865) maior (0.956)

knn 10 maior (0.854) maior (0.952)

CrossValidate true - -

distanceWeighting Weight by 1/distance - maior (0.731)

distanceWeighting Weight by 1-distance - maior (0.729)

Table 5.6: Resultados das Alterações de Parâmetros do Algoritmo KNN com PP3 e 3 Classes

As alterações efetuadas nas medidas padrões do algoritmo, com o uso de 4 classes, também mostraram mudanças no quesito desempenho do classificador (Tabela 5.7).

Parâmetro Valor Precisão Curva ROC

knn 2 menor (0.619) maior (0.831)

knn 5 maior (0.789) maior (0.897)

knn 10 menor (0.609) maior (0.887)

CrossValidate true - -

distanceWeighting Weight by 1/distance - maior (0.77)

distanceWeighting Weight by 1-distance - maior (0.772)

Table 5.7: Resultados das Alterações de Parâmetros do Algoritmo KNN com PP3 e 4 Classes

As alterações realizadas nos parâmetros do algoritmo KNN melhoraram o desempenho do mesmo significativamente. O maior desempenho alcançado para o modelo com 3 classes com as configurações padrões havia sido com precisão de 0,804 e Curva ROC de 0,681 e com a

5.4. METODOLOGIA DE EXPERIMENTOS 68

variação do parâmetro knn para o valor 5, a precisão aumentou para 0,865 e a Curva ROC para 0,956. Com isso a porcentagem de acertos do algoritmo, em relação as instâncias classificadas corretamente, passou de 59,3103% para 76.5517%. com a variação de knn para 5, o modelo com 4 classes, também apresentou elevação no valor da precisão para 0.789 e da Curva ROC para 0.897, com diferença no valor da porcentagem de acertos (67.2619%), que foi menor do que o teste com 3 classes, porém maior do que o valor obtido com a representação padrão.

5.4.2.3 Naive Bayes

Os melhores resultados obtidos pelo algoritmo Naive Bayes se deram com a utilização das especificações dos pré-processamentos PP4 para o modelo com 3 classes (com precisão = 0.874 e Curva ROC = 0.899) e PP2 para o modelo com 4 classes (com precisão = 0.823 e Curva ROC = 0.851), equivalente a, respectivamente, 86.2069% e 74.4048% de instâncias classificadas corretamente.

Dentre os parâmetros do algoritmo Naive Bayes, podem ser especificados: (1) useKernel- Estimatore (2) useSupervisedDiscretization. Ambos os parâmetros vem desabilitados por padrão. O useKernelEstimator quando ativado usa um estimador de kernel para atributos numéricos, em vez de uma distribuição normal e o useSupervisedDiscretization usa discretização supervisionada para converter atributos numéricos para as nominais. Para realização dos experimentos, os dois parâmetros foram ativados.

As experiências realizadas com as mudanças das configurações dos parâmetros do algoritmo Naive Bayes, com 3 classes, mostraram alterações em alguns resultados (TABELA 5.8):

Parâmetro Opção Precisão Curva ROC

useKernelEstimator true menor (0.851) menor (0.884)

useSupervisedDiscretization true maior (0.958) maior (0.999)

Table 5.8: Resultados das Alterações de Parâmetros do Algoritmo Naive Bayes com PP4 e 3 Classes

Os resultados conseguidos pela variação de parâmetros no modelo com 4 classes, são exibidos na Tabela 5.9.

Parâmetro Opção Precisão Curva ROC

useKernelEstimator true menor (0.804) menor (0.859)

useSupervisedDiscretization true maior (0.916) maior (0.992)

Table 5.9: Resultados das Alterações de Parâmetros do Algoritmo Naive Bayes com PP2 e 4 Classes

As modificações realizadas nas especificações padrões, mostraram aumento de desempenho pela mudança do último parâmetro (useSupervisedDiscretization). A precisão do modelo com 3 classes variou de 0,874 para 0.958 e a Curva ROC de 0.899 para 0.999, obtendo uma taxa

5.4. METODOLOGIA DE EXPERIMENTOS 69

de acertos de 95.1724%, consideravelmente maior do que a obtida com o parâmetro desativado, que era de 86,2069%. Os resultados do modelo com 4 classes, com a mudança do mesmo parâmetro, variaram quanto a precisão de 0,823 para 0.916, a Curva ROC de 0.851 para 0.992 e a taxa de acertos de 74,4048% para 91.0714%. Ou seja, o uso da discretização supervisionada para conversão atributos numéricos para as nominais possibilitou maior desempenho para o algoritmo Naive Bayes.

5.4.2.4 Random Forest

Os melhores resultados obtidos pelo algoritmo Random Forest se deram com a utilização das especificações de pré-processamento PP1 para o modelo com 3 classes (Precisão = 0,949 e Curva ROC = 0.991) que obteve 94,4828% de instâncias classificadas corretamente e PP4 para o modelo com 4 classes (Precisão = 0,908 e Curva ROC = 0.984) com 89,8810% de acertos.

Em relação aos parâmetros do algoritmo Random Forest, podemos citar: (1) maxDepth, (2) numFeatures e (3) numTrees. O parâmetro maxDepth tem o valor 0 por padrão e equivale a profundidade máxima das árvores; o numFeatures, que também possui 0 como valor padrão, é o número de atributos para ser usado em seleção aleatória; e o numTrees, que tem por padrão o número 100, condiz ao número de árvores a serem geradas.

Para realização dos experimentos, os valores de maxDepth e numFeatures foram alterados para -1 e 10 e o valor de numTrees foi modificado para 50 e 150. Os valores negativos foram usados no teste, quando o valor padrão do parâmetro foi equivalente a 0, para fins de análise do impacto da mudança para um valor menor e maior do que o padrão.

Os testes feitos com a modificação de parâmetros do algoritmo Random Forest, com 3 classes, apresentou resultados diferentes em alguns fatores (Tabela 5.10). Na tabela 5.11 são mostrados os resultados dos experimentos com 4 classes.

Parâmetro Valor Precisão Curva ROC

maxDepth -1 menor (0.937) maior (0.994)

maxDepth 10 menor (0.937) menor (0.988)

numFeatures -1 menor (0.937) maior (0.994)

numFeatures 10 menor (0.901) menor (0.984)

numTrees Para 50 menor (0.934) -

numTrees Para 150 menor (0.948) maior (0.994)

Table 5.10: Resultados das Alterações de Parâmetros do Algoritmo Random Forest com PP1 e 3 Classes

De acordo com as variações executadas nas medidas do algoritmo Random Forest, as alterações no valor da profundidade máxima das árvores (maxDepth, em quase todos os casos, elevaram valores na área da Curva ROC, porém não interferiu no valor da precisão. Nenhuma das alterações realizadas possibilitou maior desempenho ao algoritmo Random Forest, quanto ao quesito precisão.

5.4. METODOLOGIA DE EXPERIMENTOS 70

Parâmetro Valor Precisão Curva ROC

maxDepth -1 menor (0.867) maior (0.988)

maxDepth 10 menor (0.870) maior (0.987)

numFeatures -1 menor (0.867) maior (0.988)

numFeatures 10 menor (0.888) maior (0.987)

numTrees 50 menor (0.872) menor (0.969)

numTrees 150 menor (0.872) maior (0.988)

Table 5.11: Resultados das Alterações de Parâmetros do Algoritmo Random Forest com PP4 e 4 Classes

5.4.2.5 SVM (SMO)

Os melhores resultados obtidos pelo algoritmo SVM (SMO) se deram com a utilização das especificações do pré-processamento PP1, PP2 e PP4 para o modelo com 3 classes (Precisão= 0.993 e Curva ROC= 0.997) e PP1 e PP4 para o modelo com 4 classes (Precisão= 0.962 e Curva ROC= 0.986), com respectivamente 99.3103% e 95.8333% de instâncias classificadas corretamente.

Em meio aos parâmetros do algoritmo SMO, descritos no Weka, podem ser destacados: (1) c, que equivale ao parâmetro de complexidade C e (2) Kernel, que escolhe o kernel que será usado. O parâmetro c tem o valor 1.0 como padrão e o kernel tem por opção padrão o PolyKernel -C 250007 -E 1.0.

Para realização dos experimentos, o valor de c foi alterado para 0 e 10; e a opção de Kernelfoi alterada para as demais disponíveis, normalizepolykernel, puk e RBFKernel.

Os experimentos feitos através da variação de valores nos parâmetros do algoritmo SVM, com os modelos com 3 e 4 classes, mostraram os seguintes resultados (Tabela 5.12) e (Tabela 5.13).

Parâmetro Valor Precisão Curva ROC

c 0 menor (0.105) menor (0.5)

c 10 - -

kernel normalizepolykernel menor (0.98) menor (0.987)

kernel puk menor (0.455) menor (0.515)

kernel RBFKernel menor (0.98) menor (0.985)

Table 5.12: Resultados das Alterações de Parâmetros do Algoritmo SVM com PP1 e 3 Classes

Parâmetro Valor Precisão Curva ROC

c 0 menor (0.078) menor (0.5)

c 10 - -

kernel normalizepolykernel menor (0.914) menor (0.939)

kernel puk menor (0.096) menor (0.51)

kernel RBFKernel menor (0.942) menor (0.975)

Table 5.13: Resultados das Alterações de Parâmetros do Algoritmo SVM com PP1 e 4 Classes

5.5. CONSIDERAÇÕES FINAIS 71

O algoritmo SVM possui desempenho elevado com a utilização dos parâmetros padrões. As alterações feitas nos parâmetros não apresentaram melhorias no desempenho do modelo. Ao contrário, a escolha por outras opções de kernel diminuíram a Precisão e o valor da Curva ROC.

5.5 Considerações Finais

Neste capítulo foram mostrados os resultados experimentais obtidos com as etapas de pré- processamento e classificação, dando-se maior destaque para as técnicas de pré-processamento que proporcionaram maior desempenho para os algoritmos de classificação.

O desempenho dos classificadores de texto depende da aplicação específica. No contexto, em que os algoritmos foram aplicados, depoimentos pessoais de pessoas com transtornos mentais, o algoritmo SVM se sobressaiu. As técnicas de pré-processamento que permitiram o melhor desempenho do SVM, foram: toquenização, remoção de stopwords, análise da frequência das palavras e conversão de letras para minúsculas. O uso do stemming não apresentou melhorias para esse algoritmo.

O algoritmo Naive Bayes apesar de muito utilizado na literatura para classificação de texto (AGGARWAL; ZHAI,2012a), nos testes aplicados não apresentou desempenho superior aos demais algoritmos.

A performance do algoritmo KNN se mostrou desfavorecida entre as dos demais. Os resultados das classificações dos algoritmos Decision Tree J48 e Random Forest foram semelhantes e demonstraram excelente desempenho com o uso dos pré-processamentos PP1 e PP4.

As práticas mostraram diminuição na precisão e corretude de classificação com o acréscimo da classe esquizofrenia na base de dados textuais. Essa classe possui número rela- tivamente menor de documentos disponíveis na base para realização do treinamento e teste. Enquanto a classe Anorexia, Autismo e Toc possuem 47, 52 e 46 relatos, a classe Esquizofrenia conta com apenas 23 documentos.

Por fim, pôde-se perceber que a técnica SVM apresentou resultados eficazes para esse contexto específico e manteve desempenho comparável com o uso de três e quatro classes, assim como, com o uso de mais de um tipo de pré-processamento. A modificação dos parâmetros padrões usados pelo algoritmo SVM não melhoraram o desempenho do classificador quanto a precisão e a Curva ROC.

O próximo capítulo apresentará uma conclusão deste trabalho, apontando contribuições na área de Classificação de Texto, as dificuldades encontradas e trabalhos futuros.

72 72 72

6

Conclusão

Esta Dissertação apresentou o DisorderClassifier, um classificador de texto para catego- rização de depoimentos pessoais por tipo de transtorno mental, baseado na taxonomia DSM-5. Os depoimentos foram coletados de diversas fontes, tais como blogs, redes sociais e sites de clínicas, para criação da base de dados.

Como visto, este trabalho foi desenvolvido no contexto da Mineração de Texto voltada para categorização de documentos, que resultou na implementação do sistema Entendendo Meu Transtornoque disponibiliza tais relatos de forma estruturada. O processo geral para o desenvolvimento do método DisorderClassifier conta com as fases de coleta dos documentos, pré-processamento dos dados e classificação de texto.

Adotamos uma abordagem baseada na integração de técnicas estatísticas e técnicas oriunda do PLN, tais como: remoção de stopwords, stemming, análise da frequência das palavras, classificação de texto com SVM, entre outros. O trabalho de minerar automaticamente textos relacionados a transtornos mentais contribuiu para o desenvolvimento de uma base de depoimentos pessoais categorizados por tipo de transtorno.

A combinação das técnicas de pré-processamento, analisadas por cada atributo disponível, contribuiu para que o desempenho do classificador fosse satisfatório, assim como a análise de várias técnicas de classificação. Cada detalhe discutido ao longo do texto é fruto de tentativas, sendo escolhida a melhor opção para cada fase dos processos realizados.

Os resultados dos experimentos realizados nas fases de pré-processamento dos dados textuais e classificação do texto possibilitaram escolher as técnicas que apresentaram melhores resultados. O resultado do sistema implementado foi muito satisfatório.

6.1 Contribuições

Destacamos abaixo as principais contribuições do trabalho realizado, e relatado nesta Dissertação de Mestrado:

Realização de uma revisão bibliográfica extensa sobre Mineração de Texto, incluindo os principais conceitos e etapas para o desenvolvimento de um sistema de MT, bem

6.2. TRABALHOS FUTUROS 73

como os principais trabalhos relacionados a Mineração de Texto na área da Psiquiatria - foco do nosso trabalho.

Coleta e etiquetagem de relatos sobre experiências de pessoas com transtornos mentais para criação do repositório de documentos.

Definição de um método e construção de um protótipo para classificação de texto que visa categorizar depoimentos pessoais com foco em transtornos mentais.

Experimentos comparativos para avaliação das melhores técnicas disponíveis para as fases de pré-processamento e classificação do texto.

Construção de um protótipo que possibilite que o usuário visualize os resultados oferecidos pelo método de classificação, assim como conteúdos relacionados, e insira novos depoimentos.

6.2 Trabalhos Futuros

Este trabalho deixa em aberto diversas extensões, que podem ser implementadas de modo a melhorar o trabalho aqui relatado. Dentre essas propostas, podemos citar:

classificação do texto por gênero e faixa etária do autor, para que o usuário possa realizar pesquisas com base em seu contexto pessoal.

Implementação de um sistema de recomendação para recomendar depoimentos ao usuário de acordo com seu perfil pessoal e de preferências.

Filtrar conteúdo ofensivo na opção disponível para comentários a partir de um depoimento exposto.

Utilização de um corretor ortográfico, pois a ocorrência de erros de português é comum em textos livres disponíveis em blogs, fóruns, redes sociais, etc.

Uso de um crawler para coleta personalizada de depoimentos pessoais (em primeira pessoa) para enriquecer o classificador desenvolvido.

74 74 74

Referências

ABBE, A. et al. Text mining applications in psychiatry: a systematic literature review. International journal of methods in psychiatric research, [S.l.], 2015.

AGARWAL, S.; YU, H.; KOHANE, I. BioN T: a searchable database of biomedical negated sentences. BMC bioinformatics, [S.l.], v.12, n.1, p.1, 2011.

AGGARWAL, C. C. Data mining: the textbook. [S.l.]: Springer, New York, 2015.

AGGARWAL, C. C.; REDDY, C. K. Data clustering: algorithms and applications. [S.l.]: CRC Press, 2013.

AGGARWAL, C. C.; ZHAI, C. Mining text data. [S.l.]: Springer Science & Business Media, 2012.

AGGARWAL, C. C.; ZHAI, C. A survey of text clustering algorithms. In: Mining text data. [S.l.]: Springer, 2012. p.77–128.

AGGARWAL, C. C.; ZHAO, P. Towards graphical models for text processing. Knowledge and information systems, [S.l.], v.36, n.1, p.1–21, 2013.

AGRAWAL, R.; BATRA, M. A detailed study on text mining techniques. International Journal of Soft Computing and Engineering (IJSCE) ISSN, [S.l.], p.2231–2307, 2013.

AKILAN, A. Text mining: challenges and future directions. In: ELECTRONICS AND

COMMUNICATION SYSTEMS (ICECS), 2015 2ND INTERNATIONAL CONFERENCE ON. Anais. . . [S.l.: s.n.], 2015. p.1679–1684.

APHINYANAPHONGS, Y. et al. Text classification for automatic detection of alcohol

use-related tweets. In: INTERNATIONAL WORKSHOP ON ISSUES AND CHALLENGES IN SOCIAL COMPUTING. Anais. . . [S.l.: s.n.], 2014.

ASGHAR, M. Z. et al. Preprocessing in natural language processing. Editorial board, [S.l.], p.152, 2013.

ASSOCIATION, A.-A. P. et al. Diagnostic and statistical manual of mental disorders. DSM-IV, Washington, DC, [S.l.], 1994.

ASSOCIATION, A. P. et al. Diagnostic and statistical manual of mental disorders (DSM-5®). [S.l.]: American Psychiatric Pub, 2013.

ASSOCIATION, D.-. A. P. et al. Diagnostic and statistical manual of mental disorders. Arlington: American Psychiatric Publishing, [S.l.], 2013.

BASARI, A. S. H. et al. Opinion mining of movie review using hybrid method of support vector machine and particle swarm optimization. Procedia Engineering, [S.l.], v.53, p.453–462, 2013.

BERNARDI, L.; TUZZI, A. Analyzing written communication in AAC contexts: a statistical perspective. Augmentative and Alternative Communication, [S.l.], v.27, n.3, p.183–194, 2011.

REFERÊNCIAS 75

BLEIK, S. et al. Text categorization of biomedical data sets using graph kernels and a controlled vocabulary. IEEE/ACM Transactions on Computational Biology and Bioinformatics, [S.l.], v.10, n.5, p.1211–1217, 2013.

CAMBRIA, E. et al. New avenues in opinion mining and sentiment analysis. IEEE Intelligent Systems, [S.l.], v.28, n.2, p.15–21, 2013.

CAMERON, D. et al. PREDOSE: a semantic web platform for drug abuse epidemiology using social media. Journal of biomedical informatics, [S.l.], v.46, n.6, p.985–997, 2013.

CELIKYILMAZ, A.; HAKKANI-TUR, D. A hybrid hierarchical model for multi-document summarization. In: ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 48. Proceedings. . . [S.l.: s.n.], 2010. p.815–824.

CHOPRA, N. D.; GAIKWAD, K. Image and Text Spam Mail Filtering. Image and Text, [S.l.], v.5, n.3, 2015.

COHEN, T.; BLATTER, B.; PATEL, V. Simulating expert clinical comprehension: adapting latent semantic analysis to accurately extract clinical concepts from psychiatric narrative. Journal of biomedical informatics, [S.l.], v.41, n.6, p.1070–1087, 2008.

DEERWESTER, S. et al. Indexing by latent semantic analysis. Journal of the American society for information science, [S.l.], v.41, n.6, p.391, 1990.

DIAS, Á. M. et al. Whole field tendencies in transcranial magnetic stimulation: a systematic review with data and text mining. Asian journal of psychiatry, [S.l.], v.4, n.2, p.107–112, 2011.

DICKINSON, I. In Favour of (more) Intelligence in the Semantic UI. In: SIXTH INTERNATIONAL WORKSHOP ON SEMANTIC WEB USER INTERACTION. Proceedings. . . [S.l.: s.n.], 2009.

ERIKSSON, R. et al. Dictionary construction and identification of possible adverse drug events in Danish clinical narrative text. Journal of the American Medical Informatics Association, [S.l.], v.20, n.5, p.947–953, 2013.

FAWCETT, T. An introduction to ROC analysis. Pattern recognition letters, [S.l.], v.27, n.8, p.861–874, 2006.

FELDMAN, R. Techniques and applications for sentiment analysis. Communications of the

No documento Disorderclassifier: classificação de texto para categorização de transtornos mentais (páginas 65-88)