• Nenhum resultado encontrado

7 Considerações Finais

7.1 Análise final

O presente trabalho está incluído na área de aprendizado de máquina, mais especifi- camente, aprendizado semissupervisionado. Uma das principais limitações dos algoritmos de aprendizado semissupervisionado está relacionada à seleção de novas instâncias a se- rem incluídas no conjunto de dados rotulados. Diante do exposto, diversas pesquisas vêm sendo realizadas para tentar sanar este problema (RODRIGUES; SANTOS; CANUTO, 2013;

TAO et al., 2016;WU et al., 2017;WANG et al., 2017;GAN et al., 2013). No entanto, nenhuma delas empregou a ideia desta pesquisa, que utiliza um limiar de confiança dinâmico, para inclusão de novas instâncias no conjunto de treinamento a cada iteração.

Este trabalho propôs o FlexCon-G, FlexCon e FlexCon-C, que são métodos para cálculo de taxa de confiança dinâmica e escolha de rótulos utilizados no processo de rotulagem semissupervisionada do self-training e co-training. No entanto, enquanto o self- training e co-training originais e o proposto por Rodrigues, Santos e Canuto (2013) usam um procedimento estático para incluir novas instâncias no conjunto de dados rotulados, o FlexCon-G, FlexCon e FlexCon-C visam tornar o procedimento de rotulagem mais flexível. Com isso, espera-se que os métodos propostos sejam capazes de explorar mais profundamente todo o potencial de uma técnica semissupervisionada.

Para avaliar a viabilidade desta proposta, foram realizados experimentos utilizando 30 conjuntos de dados de classificação, organizados em 5 cenários diferentes, no que se refere à proporção de instâncias inicialmente rotuladas (5%, 10%, 15%, 20% e 25%).

Além disso, foram usados quatro algoritmos de classificação diferentes no procedimento de autotreinamento, Naive Bayes, árvore de decisão, Ripper e k -NN.

Os resultados dos experimentos foram avaliados sob duas perspectivas:

1. o desempenho dos métodos em relação a acurácia e desvio padrão;

2. análise do ponto de vista estatístico.

Com isso, foi possível concluir que, os métodos cujo objetivo é tornar dinâmica a taxa de confiança são promissores, pois apresentam melhor performance quando comparados aos métodos em sua forma original e na forma de limiar fixo, na maioria dos casos.

Conforme os resultados apresentados anteriormente, os métodos FlexCon-G, FlexCon e FlexCon-C obtiveram melhor desempenho que o self-training e co-training, na maioria dos casos, considerando tanto as tabelas de classificação quanto os valores estatisticamente superiores. De maneira geral, os métodos propostos obtiveram desempenho satisfatório em 75% (3 de 4) dos casos, se considerados os dois algoritmos (self-training e co-training) e os dois métodos que foram usados para comparação dos resultados (ST/CT Original e ST/CT Limiar fixo). Em outras palavras, os métodos propostos neste trabalho demons- traram melhor desempenho do que o ST Original, CT Original e ST Limiar fixo. Conforme justificado anteriormente, os métodos propostos não obtiveram acurácia maior do que o CT Limiar fixo devido tais métodos rotularem todo o conjunto de dados não rotulados. Sendo assim, identificou-se um tradeoff em que o desempenho dos métodos propostos diminuiu, mas por outro lado rotularam todo o conjunto de dados.

Por fim, explorando a acurácia dos métodos propostos por classificador, conclui-se que o Naive Bayes e o k -NN se destacam dos demais classificadores, pois obtiveram acurácia superior aos originais, tanto para o self-training quanto para o co-training. Investigando a performance dos métodos de acordo com o percentual de instâncias inicialmente rotuladas, constata-se que as maiores acurácias são alcançadas quando se utiliza 25% em todos os casos, exceto com o self-training usando o classificador Naive Bayes.

7.2

Trabalhos Futuros

A seguir são apresentados alguns trabalhos que podem ser desenvolvidos em futuras pesquisas envolvendo os métodos propostos:

• Os métodos foram aplicados aos algoritmos self-training e co-training, no entanto existe a possibilidade de utilização de outros algoritmos de aprendizado semissuper- visionado.

• Utilizar outros classificadores, como por exemplo, redes neurais. O desempenho des- tes novos classificadores podem ser comparados com os resultados obtidos neste trabalho.

• Investigar uma estratégia para tratar ou evitar a inclusão de instâncias não confiá- veis. São consideradas instâncias não confiáveis, aquelas cuja taxa de confiança na predição seja muito baixa.

• Desenvolver um processo de estratificação de dados para inclusão de novas instâncias no conjunto de dados rotulados, este processo deve ser aplicado utilizando o co- training.

• Neste trabalho foram utilizados cinco percentuais de instâncias inicialmente rotu- ladas, portanto, outros percentuais podem ser usados e comparados com os desta pesquisa.

• Aplicar a bases de dados multirrótulo os métodos propostos neste trabalho.

• Criar uma estratégia para selecionar os atributos de cada uma das visões do algo- ritmo co-training.

Referências

AGHABABAEI, S.; MAKREHCHI, M. Interpolative self-training approach for sentiment analysis. In: 2016 International Conference on Behavioral, Economic and Socio-cultural Computing (BESC). [S.l.: s.n.], 2016. p. 1–6.

ALBALATE, A.; MINKER, W. Semi-Supervised and Unsupervised Machine Learning - Novel Estrategies. [S.l.]: Wiley, 2011.

ALCALA-FDEZ, J. et al. Keel data-mining software tool: Data set repository, inte- gration of algorithms and experimental analysis framework. Multiple-Valued Logic and Soft Computing, v. 17, n. 2-3, p. 255–287, 2011. Disponível em: <https://dblp.uni- trier.de/db/journals/mvl/mvl17.html>.

ALPAYDIN, E. Introdution to Machine Learning. [S.l.]: The MIT Press, 2010.

ARYOYUDANTA, B.; ADJI, T. B.; HIDAYAH, I. Semi-supervised learning approach for indonesian named entity recognition (ner) using co-training algorithm. In: 2016 Interna- tional Seminar on Intelligent Technology and Its Applications (ISITIA). [S.l.: s.n.], 2016. p. 7–12.

BAI, X. et al. Co-transduction for shape retrieval. IEEE Transactions on Image Proces- sing, v. 21, n. 5, p. 2747–2757, May 2012. ISSN 1057-7149.

BHAGYASHREE, S. I. R. et al. Diagnosis of dementia by machine learning methods in epidemiological studies: a pilot exploratory study from south india. Social Psychiatry and Psychiatric Epidemiology, v. 53, n. 1, p. 77–86, Jan 2018. ISSN 1433-9285. Disponível em: <https://doi.org/10.1007/s00127-017-1410-0>.

BLUM, A.; MITCHELL, T. Combining labeled and unlabeled data with co-training. In: Proceedings of the Eleventh Annual Conference on Computational Learning Theory. New York, NY, USA: ACM, 1998. (COLT’ 98), p. 92–100. ISBN 1-58113-057-0. Disponível em: <http://doi.acm.org/10.1145/279943.279962>.

BREIMAN, L. Bias, variance, and arcing classifiers. [S.l.], 1996.

CHAPELLE, O.; SCHOLKOPF, B.; ZIEN, A. Semi-Supervised Learning. [S.l.]: The MIT Press, 2006.

Chen, Y.; Pan, T.; Chen, S. Development of co-training support vector machine model for semi-supervised classification. In: 2017 36th Chinese Control Conference (CCC). [S.l.: s.n.], 2017. p. 11077–11080. ISSN 1934-1768.

CHOI, J. Y. et al. Classifier ensemble generation and selection with mul- tiple feature representations for classification applications in computer- aided detection and diagnosis on mammography. Expert Systems with Ap- plications, v. 46, p. 106 – 121, 2016. ISSN 0957-4174. Disponível em: <http://www.sciencedirect.com/science/article/pii/S0957417415007010>.

CICHOSZ, P. Data Mining Algorithms: Explained Using R. Wiley, 2015. (Wiley online library). ISBN 9781118332580. Disponível em: <https://books.google.com.br/books?id=q7FYBQAAQBAJ>.

COHEN, W. W. Fast effective rule induction. In: Proceedings of the Twelfth International Conference on International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1995. (ICML’95), p. 115–123. ISBN 1-55860-377-8. Disponível em: <http://dl.acm.org/citation.cfm?id=3091622.3091637>.

DHEERU, D.; TANISKIDOU, E. K. UCI Machine Learning Repository. 2017. Disponível em: <http://archive.ics.uci.edu/ml>.

DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern Classification (2nd Edition). 2. ed. [S.l.]: Wiley-Interscience, 2000. Hardcover. ISBN 0471056693.

FRINKEN, V. et al. Keyword spotting for self-training of blstm nn based hand- writing recognition systems. Pattern Recognition, v. 47, n. 3, p. 1073 – 1082, 2014. ISSN 0031-3203. Handwriting Recognition and other PR Applications. Disponível em: <http://www.sciencedirect.com/science/article/pii/S0031320313002823>.

GAMA, J. et al. Inteligência artificial: uma abordagem de aprendizado de máquina. Grupo Gen - LTC, 2011. ISBN 9788521618805. Disponível em: <https://books.google.com.br/books?id=4DwelAEACAAJ>.

GAN, H. et al. Using clustering analysis to improve semi-supervised classifica- tion. Neurocomputing, v. 101, p. 290 – 298, 2013. ISSN 0925-2312. Disponível em: <http://www.sciencedirect.com/science/article/pii/S0925231212006601>.

GARAY-GARCELL, M. Interfaces Inteligentes en el aprendizaje de la Modelación. Inge- niería Industrial, 2015.

GHARROUDI, O. Ensemble multi-label learning in supervised and semi-supervised settings. Tese (Theses) — Université de Lyon, dez. 2017. Disponível em: <https://tel.archives-ouvertes.fr/tel-01736344>.

HASAN, M. R.; GHOLAMHOSSEINI, H.; SARKAR, N. I. A new ensemble classifier for multivariate medical data. In: 2017 27th International Telecommunication Networks and Applications Conference (ITNAC). [s.n.], 2017. v. 00, p. 1–6. ISSN 2474-154X. Disponível em: <doi.ieeecomputersociety.org/10.1109/ATNAC.2017.8215412>.

HERRERA, F. et al. Multilable Classification: Problem Analysis, Metrics and Techniques. [S.l.]: Springer, 2016.

HOANG, N. D.; CHAU, V. T. N.; PHUNG, N. H. Combining transfer learning and co- training for student classification in an academic credit system. In: 2016 IEEE RIVF International Conference on Computing Communication Technologies, Research, Innova- tion, and Vision for the Future (RIVF). [S.l.: s.n.], 2016. p. 55–60.

HOLZINGER, A. Interactive machine learning for health informatics: when do we need the human-in-the-loop? Brain Informatics, 2016.

HOSSEINI, M. J.; GHOLIPOUR, A.; BEIGY, H. An ensemble of cluster-based clas- sifiers for semi-supervised classification of non-stationary data streams. Knowledge and Information Systems, v. 46, n. 3, p. 567–597, Mar 2016. ISSN 0219-3116. Disponível em: <https://doi.org/10.1007/s10115-015-0837-4>.

HUMAYUN, A. I. et al. An ensemble of transfer, semi-supervised and supervi- sed learning methods for pathological heart sound classification. In: Interspeech 2018, 19th Annual Conference of the International Speech Communication Associa- tion, Hyderabad, India, 2-6 September 2018. [s.n.], 2018. p. 127–131. Disponível em: <https://doi.org/10.21437/Interspeech.2018-2413>.

JOSEPH, H. R. Promoting education: A state of the art machine learning framework for feedback and monitoring e-learning impact. In: 2014 IEEE Global Humanitarian Techno- logy Conference - South Asia Satellite (GHTC-SAS). [S.l.: s.n.], 2014. p. 251–254.

KIM, D. et al. Multi-co-training for document classification using various document re- presentations: Tf-idf, lda and doc2vec. Information Sciences, 2019.

KUNCHEVA, L. I. Combining Pattern Classifiers: Methods and Algorithms. 2nd. ed. [S.l.]: Wiley Publishing, 2014. ISBN 1118315235, 9781118315231.

LIU, J.; ZHAO, S.; WANG, G. Ssel-ade: A semi-supervised ensemble learning fra- mework for extracting adverse drug events from social media. Artificial Intelli- gence in Medicine, v. 84, p. 34 – 49, 2018. ISSN 0933-3657. Disponível em: <http://www.sciencedirect.com/science/article/pii/S0933365717301847>.

LOFARO, D. et al. Machine learning approaches for supporting patient-specific cardiac rehabilitation programs. In: 2016 Computing in Cardiology Conference (CinC). [S.l.: s.n.], 2016. p. 149–152.

MITCHELL, T. M. Machine Learning. [S.l.]: McGraw-Hill, 1997.

MONARD, M. C.; BARANAUSKAS, J. A. Sistemas inteligentes: Fundamentos e aplica- ções. In: . [S.l.]: Manole, 2003. cap. Conceitos sobre Aprendizado de Máquina, p. 89 114.

NASCIMENTO, D. S.; COELHO, A. L. V.; CANUTO, A. M. P. Integrating complemen- tary techniques for promoting diversity in classifier ensembles: A systematic study. In: Neurocomputing (Amsterdam). [S.l.: s.n.], 2014.

NIJHAWAN, R.; RAMAN, B.; DAS, J. Proposed hybrid-classifier ensemble algorithm to map snow cover area. Journal of Applied Remote Sensing, v. 12, p. 12 – 12 – 20, 2018. Disponível em: <http://dx.doi.org/10.1117/1.JRS.12.016003>.

PADHY, N. P. Artificial intelligence and intelligent systems. [S.l.]: New Delhi, 2005. PHAM, B. T. et al. Rotation forest fuzzy rule-based classifier ensemble for spatial pre- diction of landslides using gis. Natural Hazards, v. 83, n. 1, p. 97–127, Aug 2016. ISSN 1573-0840. Disponível em: <https://doi.org/10.1007/s11069-016-2304-2>.

QIAO, S. et al. Deep co-training for semi-supervised image recognition. In: The European Conference on Computer Vision (ECCV). [S.l.: s.n.], 2018.

RODRIGUES, F. M.; SANTOS, A. de M.; CANUTO, A. M. P. Using confidence values in multi-label classification problems with semi-supervised learning. In: The 2013 Inter- national Joint Conference on Neural Networks (IJCNN). [S.l.: s.n.], 2013. p. 1–8. ISSN 2161-4407.

SAMIAPPAN, S.; MOORHEAD, R. J. Semi-supervised co-training and active learning framework for hyperspectral image classification. In: 2015 IEEE International Geoscience and Remote Sensing Symposium (IGARSS). [S.l.: s.n.], 2015. p. 401–404. ISSN 2153-6996. SANTOS, A. de M. Investigando a combinação de técnicas de aprendizado semissupervisi- onado e classificação hierárquica multirrótulo. Tese (Doutorado) — Universidade Federal do Rio Grande do Norte, 2012.

SMITH, J. W. et al. Using the ADAP learning algorithm to forecast the onset of diabetes mellitus. In: Proceedings of the Symposium on Computer Applications and Medical Care. [S.l.]: IEEE Computer Society Press, 1988. p. 261–265.

STIMPSON, A. J.; CUMMINGS, M. L. Assessing intervention timing in computer-based education using machine learning algorithms. IEEE Access, v. 2, p. 78–87, 2014. ISSN 2169-3536.

TANHA, J.; SOMEREN, M. van; AFSARMANESH, H. Semi-supervised self-training for decision tree classifiers. International Journal of Machine Learning and Cy- bernetics, v. 8, n. 1, p. 355–370, Feb 2017. ISSN 1868-808X. Disponível em: <https://doi.org/10.1007/s13042-015-0328-7>.

TAO, Y. et al. Improving semi-supervised self-training with embed- ded manifold transduction. Transactions of the Institute of Measure- ment and Control, v. 0, n. 0, p. 0142331216658091, 2016. Disponível em: <http://dx.doi.org/10.1177/0142331216658091>.

THEODORSSON-NORHEIM, E. Friedman and quade tests: Basic computer program to perform nonparametric two-way analysis of variance and multiple comparisons on ranks of several related samples. Computers in biology and medicine, v. 17(2), p. 85–99, 1987. TORGO, L. Data Mining with R: Learning with Case Studies, Second Edition. 2nd. ed. [S.l.]: Chapman & Hall/CRC, 2017. ISBN 1482234890, 9781482234893.

VALE, K. M. O. et al. Automatic adjustment of confidence values in self-training semi- supervised method. In: Proceedings of International Joint Conference on Neural Networks (IJCNN 2018). [S.l.: s.n.], 2018.

VERNEKAR, S. et al. A novel approach for classification of normal/abnormal phonocar- diogram recordings using temporal signal analysis and machine learning. In: 2016 Com- puting in Cardiology Conference (CinC). [S.l.: s.n.], 2016. p. 1141–1144.

VOCK, D. M. et al. Adapting machine learning techniques to censored time-to-event health record data: A general-purpose approach using inverse probability of censoring weighting. Journal of Biomedical Informatics, 2016.

WANG, B. et al. Semi-supervised self-training for sentence subjectivity classification. In: . [S.l.]: Springer Berlin Heidelberg, 2008. p. 344–355.

WANG, C. et al. Semi-supervised classification framework of hyperspectral images based on the fusion evidence entropy. Multimedia Tools and Applications, Apr 2017. ISSN 1573- 7721. Disponível em: <https://doi.org/10.1007/s11042-017-4686-x>.

WANG, J. Semi-supervised learning using ensembles of multiple 1d-embedding- based label boosting. International Journal of Wavelets, Multiresolution and Information Processing, v. 14, n. 02, p. 1640001, 2016. Disponível em: <http://www.worldscientific.com/doi/abs/10.1142/S0219691316400014>.

WANG, M. et al. Scalable semi-supervised learning by efficient anchor graph regulariza- tion. IEEE Transactions on Knowledge and Data Engineering, v. 28, n. 7, p. 1864–1877, July 2016. ISSN 1041-4347.

WITTEN, I. H.; FRANK, E.; HALL, M. A. Data Mining: Practical Machine Learning Tools and Techniques. 3rd. ed. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2011. ISBN 0123748569, 9780123748560.

WU, D. et al. Self-training semi-supervised classification based on den- sity peaks of data. Neurocomputing, 2017. ISSN 0925-2312. Disponível em: <http://www.sciencedirect.com/science/article/pii/S0925231217309608>.

YAROWSKY, D. Unsupervised word sense disambiguation rivaling supervised methods. In: Proceedings of the 33rd Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 1995. (ACL ’95), p. 189–196. Disponível em: <https://doi.org/10.3115/981658.981684>.

YU, N. Domain Adaptation for Opinion Classification: A Self- Training Approach. 2013. ZHANG, D. et al. A robust semi-supervised svm via ensemble learning. Ap- plied Soft Computing, v. 65, p. 632 – 643, 2018. ISSN 1568-4946. Disponível em: <http://www.sciencedirect.com/science/article/pii/S1568494618300449>.

ZHAO MINLIE HUANG; ZIYU YAO, R. S. Y. J. X. Z. L. Semi-supervised multino- mial naive bayes for text classification by leveraging word-level statistical constraint. In: Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. [S.l.: s.n.], 2016. ZHU, X.; GOLDBERG, A. B. Introduction to semi-supervised learning. Synthesis Lectures on Artificial Intelligence and Machine Learning, v. 3, n. 1, p. 1–130, 2009.

APÊNDICE A -- Acurácia de todos os métodos

Documentos relacionados