ALEXANDRE MIKIO KIMURA FUKANO
PREDIÇÃO DE RESULTADOS DA NBA COM BASE NA
MINERAÇÃO DE DADOS
LONDRINA 2018
ALEXANDRE MIKIO KIMURA FUKANO
PREDIÇÃO DE RESULTADOS DA NBA COM BASE NA
MINERAÇÃO DE DADOS
Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel em Ciência da Computação.
Orientador: Prof. Dr. Jacques Duílio Brancher
Coorientador: Prof. Robson Parmezan Bo-nidia
LONDRINA 2018
Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração Automática do Sistema de Bibliotecas da UEL
Sobrenome, Nome.
Título do Trabalho : Subtitulo do Trabalho / Nome Sobrenome. - Londrina, 2017. 100 f. : il.
Orientador: Nome do Orientador Sobrenome do Orientador. Coorientador: Nome Coorientador Sobrenome Coorientador.
Dissertação (Mestrado em Ciência da Computação) - Universidade Estadual de Londrina, Centro de Ciências Exatas, Programa de Pós-Graduação em Ciência da Computação, 2017.
Inclui bibliografia.
1. Assunto 1 - Tese. 2. Assunto 2 - Tese. 3. Assunto 3 - Tese. 4. Assunto 4 - Tese. I. Sobrenome do Orientador, Nome do Orientador. II. Sobrenome Coorientador, Nome Coorientador. III. Universidade Estadual de Londrina. Centro de Ciências Exatas. Programa de Pós-Graduação em Ciência da Computação. IV. Título.
ALEXANDRE MIKIO KIMURA FUKANO
PREDIÇÃO DE RESULTADOS DA NBA COM BASE NA
MINERAÇÃO DE DADOS
Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel em Ciência da Computação.
BANCA EXAMINADORA
Orientador: Prof. Dr. Jacques Duílio Brancher
Universidade Estadual de Londrina
Prof. Dr. Segundo Membro da Banca Universidade/Instituição do Segundo Membro da Banca – Sigla instituição
Prof. Dr. Terceiro Membro da Banca Universidade/Instituição do Terceiro Membro da Banca – Sigla instituição
Prof. Ms. Quarto Membro da Banca Universidade/Instituição do Quarto Membro da Banca – Sigla instituição
Este trabalho é dedicado às crianças adultas que, quando pequenas, sonharam em se tornar cientistas.
AGRADECIMENTOS
Os agradecimentos principais são direcionados à Gerald Weber, Miguel Frasson, Leslie H. Watter, Bruno Parente Lima, Flávio de Vasconcellos Corrêa, Otavio Real Sal-vador, Renato Machnievscz1 e todos aqueles que contribuíram para que a produção de
trabalhos acadêmicos conforme as normas ABNT com LATEX fosse possível.
Agradecimentos especiais são direcionados ao Centro de Pesquisa em Arquitetura da Informação2 da Universidade de Brasília (CPAI), ao grupo de usuários latex-br3 e aos
novos voluntários do grupo abnTEX24 que contribuíram e que ainda contribuirão para a
evolução do abnTEX2.
1
Os nomes dos integrantes do primeiro projeto abnTEX foram extraídos de <http://codigolivre.org. br/projects/abntex/>
2 <http://www.cpai.unb.br/>
3 <http://groups.google.com/group/latex-br>
“Não vos amoldeis às estruturas deste mundo, mas transformai-vos pela renovação da mente, a fim de distinguir qual é a vontade de Deus: o que é bom, o que Lhe é agradável, o que é perfeito. (Bíblia Sagrada, Romanos 12, 2))
SOBRENOME, N. A.. Predição de resultados da NBA com base na mineração de dados. 2018. 22f. Dissertação (Mestrado em Ciência da Computação) – Universidade Estadual de Londrina, Londrina, 2018.
RESUMO
A predição dos mais variados esportes se tornou um desafio voltada para as pesquisas acadêmicas. O basquetebol é um desses esportes na qual cresceu muito e que atualmente possui a liga denominada NBA (National Basketball Association). Esta que é a principal liga de basquetebol profissional da América do Norte, além disso, sua fama conquista um crescente grupo de fãs ao redor do mundo. Ao longo do tempo, todas as informações da NBA foram armazenadas e consequentemente foi criada uma enorme base de dados. Com todas essas informações, este trabalho propõe utilizar a técnica de mineração de dados para uma boa acurácia na predição dos resultados dos jogos da NBA com base em métodos estatísticos.
SOBRENOME, N. A.. Title of the Work. 2018. 22p. Master’s Thesis (Master in Science in Computer Science) – State University of Londrina, Londrina, 2018.
ABSTRACT
The prediction of the most varied sports has become a challenge focused on academic research. Basketball is one of those sports in which he grew up and currently owns the league called the NBA (National Basketball Association). This is the leading professional basketball league in North America, in addition, its fame achieves a growing group of fans around the world. Over time, all NBA information was stored and a huge data base. With all this information, this paper proposes to use the data mining technique for good predictive accuracy. of NBA game results based on statistical methods..
LISTA DE ILUSTRAÇÕES
Figura 1 – Regras Básicas do basquete/NBA - Via Globoesporte.com . . . 17 Figura 2 – Mineração de Dados . . . 19
LISTA DE ABREVIATURAS E SIGLAS
ABNT Associação Brasileira de Normas Técnicas
BNDES Banco Nacional de Desenvolvimento Econômico e Social IBGE Instituto Nacional de Geografia e Estatística
IBICT Instituto Brasileiro de Informação em Ciência e Tecnologia NBR Norma Brasileira
SUMÁRIO
1 INTRODUÇÃO . . . . 13 2 ÁREA DE ATUAÇÃO . . . . 15 3 TRABALHOS RELACIONADOS . . . . 18 4 FUNDAMENTAÇÃO TEÓRICA . . . . 19 4.1 Aprendizado de máquina . . . . 19 4.1.1 Random Forest . . . 20 4.1.1.1 Naive Bayes . . . 20 REFERÊNCIAS . . . . 2113
1 INTRODUÇÃO
Com a crescente popularização dos muitos esportes em nossa sociedade, diversas organizações foram surgindo e se firmando com o intuito de juntar os seus fãs e criar diversos eventos esportivos. Com isso, essas organizações ao passar dos anos movem um grande volume monetário e de pessoas que consequentemente impactam todos os setores governamentais[1].
Com os eventos esportivos(Ligas Profissionais ou amadoras), tem-se as apostas esportivas ou casas de apostas desportivas[2][3], ambas são realizadas por fãs. Algumas destas acabam se tornando um bom ne´gocio e por isso envolvem muito dinheiro. Basi-camente faz-se a predição dos jogos[4][5] na qual tentam adivinhar qual time ou atleta que potencialmente irá sair vencedor. Muitas das vezes esta aposta é feita com base na intuição da própria pessoa ou no fanatismo em um determinado time ou atleta, sem um estudo prévio feito anteriormente.
Narradores, comentaristas, apresentadores, técnicos, atletas e ex atletas tradicio-nalmente usam a mesma ideia sobre as previsões de jogos, usam da experiência vivida, instinto ou resultados históricos para fazer a análise entre dois concorrentes. Consequen-temente a precisão sobre os resultados pode variar muito, tornando essa predição um desafio a ser estudada[6].
Com vários eventos esportivos sendo realizados, as informações dos jogos, equipes e atletas vão sendo armazenadas gerando uma enorme base de dados esportivos[7]. Todas essas informações estão em sua forma raiz e utilizando o método chamado mineração de dados[8][9], essas informações podem ser lidas, processadas e reutilizadas para um trabalho futuro, tal como a mineração de dados esportivos[10][11][12].
A área acadêmica já utiliza essas informações obtidas a partir da mineração de da-dos para diversos trabalho de predição em vários tipos de esportes como o xadrez(individual)[13], futebol americano(coletivo)[14] e esportes eletrônicos(virtual)[15]. Porém há muita falta de informações ainda, que por sua vez dificulta o estudo de algumas modalidades, sendo assim, empobrecendo a predição destes esportes.
Neste trabalho, a abordagem será feita no basquetebol, esporte muito famoso nos dias atuais e que atinge uma proporção global. A liga que será estudada para as predições dos jogos será a liga denominada NBA(National Basketball Association), esta que é a principal liga da América do Norte e a principal liga internacional de basquetebol.
Para realizar as predições, usaremos métodos estatísticos[16] e classificatórios[17] baseando-se nos dados históricos das partidas ou seja, para prever jogos de uma tempo-rada, utilizaremos os dados dos jogos da temporada anterior para prever os vencedor e o
14
15
2 ÁREA DE ATUAÇÃO
Para melhor entendimento deste trabalho, explicaremos melhor o esporte e a liga que será aplicada a nossa predição de jogos.
O basquetebol é um esporte norte americano criado pelo professor canadense James Naismith em 1891. Desde então a fama deste esporte foi crescendo ao longo do tempo. Juntamente suas regras foram sendo alteradas para melhorar o estilo do jogo. Como as previsões são de 2014 até 2018, usaremos as regras mais recentes do basquetebol. São elas: -> O jogo possui 4 tempos de 10 minutos. Se houver empate nesse tempo, seŕa acrescidos tempos de 5 min para desempatar.
-> O jogos possui duas equipes com 5 pessoas cada. A equipe que fizer mais pontos será a vencedora.
-> Há 3 possibilidades de pontuações no decorrer da partida, 1, 2 e 3 pontos respectivamente. A pontuação esta relacionada com a distância que o arrete foi feito a partir da cesta
-> A partida possui 3 árbitros para supervisionar todos os lances.
-> Se um jogador comete 5 faltas, a próxima será punido com a eliminação desse jogador.
Essas são as principais regras do basquetebol, há muito mais regras e podem ser vistas em [18]
A NBA(National Basketball Association) foi fundada na cidade de Nova Iorque em 6 de Junho de 1946. É a principal liga norte americana e a mais importante liga mundial de basquetebol. A liga tem o formato com 30 times, sendo uma canadense o restante norte americanas. Esse formato é dividia em e fases:
A Temporada regular começa por volta de outubro e segue até abril do ano se-guinte. Cada time joga 82 jogos contra todos os outros, sendo que pode enfrentar alguns times 3 ou 4 vezes, contra times da mesma divisão são sempre 4 jogos, das outras divisões usa-se um sistema dependendo de quantas vezes enfrentou aquele time nas temporadas anteriores. Apesar disso o sistema de pontuação que classifica para os playoffs é válido apenas para os times da mesma conferência.
A segunda fase são os playoffs (ou mata-mata) começam por volta de abril e seguem até maio. São séries "melhor-de-sete"compostas por 8 times em cada conferência. O primeiro colocado de cada conferência enfrenta o último, o segundo o penúltimo, e assim sucessivamente. Os três campeões de divisão tem direito a ficar entre os quatro primeiros
16
para mais jogos em casa, embora um time que tenha ficado em segundo na sua divisão mas com resultado melhor que um líder de outra possa ter um posicionamento melhor. Os jogos são realizados de tal maneira: os dois primeiros na cidade do time de melhor campanha, seguido por dois jogos na cidade do outro time. Caso faça-se necessário outras partidas elas serão disputadas alternadamente entre as cidades, sendo o time de melhor campanha o favorecido.
A última fase são as finais da NBA são realizadas sempre em meados de junho. É disputada pelo campeão da Conferência Leste contra o campeão da Conferência Oeste. Assim como os playoffs também é disputada em uma série "melhor-de-sete". Tem a vanta-gem no mando de quadra o time de melhor campanha na temporada regular, disputando em casa as duas primeiras partidas e, se necessários, os jogos cinco e sete.
Na NBA algumas regras básicas do basquetebol se alteram também:
-> O jogo possui 4 tempos de 12 minutos. Se houver empate nesse tempo, seŕa acrescidos tempos de 5 min para desempatar.
-> Se um jogador comete 6 faltas, a próxima será punido com a eliminação desse jogador.
17
18
3 TRABALHOS RELACIONADOS
A ideia do trabalho de [14] abrange uma predição no futebol americano, mais precisamente do National Collegiate Athletic Association(NCAA). Segundo o autor, a abordagem é evitar calcular qual equipe saíra vencedora num confronto direto mas sim analisar um conjunto de times e descobrir quais são os times que apresentaram similari-dade alta com cada um dos concorrentes, encontrando assim os resultados entre o time similar contra o time concorrente. Os dados desse resultado serão utilizados para prever o jogos entre as duas equipes originais.
Para que seja possível conseguir esses dados, usou-se os resultados de jogos passa-dos. Cada time teve suas características salvas e jogadas em um mapa onde cada ponto é um time, sendo assim a distância entre eles caracterizava se um time era similar com o outro ou não.
Para fazer a previsão entre os times originais, foi necessário usar 4 dimensões estatísticas juntamente com normalizações nos valores mais extremos. Por fim, a equipe que possuir a maior soma das quatro estatísticas é declarada o vencedor previsto, ou seja, o resultado é de classificação.
O autor de [19] aborda uma predição no basquetebol baseada em técnicas de mineração de dados para criar um sistema que prevê e calcula resultados da NBA. Mas diferentemente de [14], ele utiliza algoritmos para o problema de classificação, já que no basquetebol não há empates.
Utilizou-se duas classes, uma é se o time obtém a vitória jogando em casa e a outra é se o time ganha fora de casa. Para cada equipe, existe dois grupos de atributos, um é baseada em estatísticas do esporte basquete(arremesso, faltas, bloqueios, etc) e outra em estatísticas da equipe(Vitórias, derrotas, número de jogos, etc).
Para aumentar a eficiência do classificador do sistema, utilizou-se seleção de atribu-tos e normalização. Feito isso, testes foram realizados em diversos algoritmos de classificação[20] como a árvore de decisão, k-vizinhos, naive bayes e SVM. O melhor resultado saiu do Naive Bayes.
19
4 FUNDAMENTAÇÃO TEÓRICA
A mineração de dados[8] é utilizada quando se tem uma grande base de dados[21] que potencialmente pode trazer informações para serem utilizados em trabalhos futuros.
O processo da mineração de dado se baseia inicialmente nas Databases, é nessa etapa que as informações em seu estado bruto estão armazenadas. Em seguida, tem-se a seleção de alguns atributos que possam a ser relevantes. Após serem escolhidos os atributos de interesse vem o processamento de dados que tem o intuito de fazer a limpeza dos dados, esse procedimento elimina informações Incompletas, Redundantes, Ruidosas e Esparsas a fim de levar adiante, somente informações consistentes.
O próximo passo do processo é a seleção dos itens relevantes da etapa anterior para o data mining. Esta que utiliza reconhecimento de padrões para agrupar os dados de forma que exista uma relação entre elas. Por fim, a etapa de avaliação dessas informações, permite que o grupo de dados possa transmitir conhecimento para que sejam pesquisadas em diversos projetos ou pesquisas. A figura 2 retrata a técnica de mineração de dados
Figura 2 – Mineração de Dados
Feito a extração desse dados[22], podemos usa-los em diversas pesquisas como por exemplo problemas de classificação de padrões[23], predições na área esportiva[14][19][12][5][10] e áreas de pesquisas criminais[24].
4.1
Aprendizado de máquina
Aprendizado de máquina[25] é uma área da Inteligência Artificial que possui um conjunto de regras e procedimentos que permite máquinas de aprender baseando-se em
20
padrões e relações sem serem programados inicialmente. Além disso, existe diversos algo-rítimos que facilitam esta técnica por meio da estatística, agrupamento e classificação de informações.
4.1.1 Random Forest
O algoritmo de Random Forest[26] se baseia em gerar arvores de decisão em di-ferentes subconjuntos de dados. Cada subconjunto de treinamento é criado para cada árvore usando uma amostragem aleatória com reposição. Esse processo permite que uma variação grande dos dados seja combinada e explorada. Para problemas de classificação, a saída é definida pela da maioria.
4.1.1.1 Naive Bayes
O algoritmo Naive Bayes[27][28] é um classificador probabilístico baseado no Teo-rema de Bayes e possui um desempenho relativamente maior do que outros classificadores. Além disso, o Naive Bayes só precisa de um pequeno número de dados de teste para con-cluir classificações com uma boa precisão. A principal característica do algoritmo é que ele desconsidera completamente a relação entre as variáveis.
21
REFERÊNCIAS
[1] VOOR, B. et al. THE POWER OF SPORT TO INFLUENCE SOCIETY FOR THE BETTER. 2017.
[2] CAMPINAS, U. E. D. Xxxx 1, 1. [S.l.: s.n.], 2010. 1–3 p. ISBN 9780857190390. [3] WONG, S. Sharp Sports Betting. [s.n.], 2001. ISBN 9780935926446. Disponível em:
<http://stavochka.com/files/Sharp{\_}Sports{\_}Betti>.
[4] SCHUMACHER, C. et al. (12) United States Patent. v. 2, n. 12, 2002.
[5] HAGHIGHAT, M.; RASTEGARI, H.; NOURAFZA, N. A Review of Data Mining Techniques for Result Prediction in Sports. Advances in Computer Science, v. 2, n. 5, p. 7–12, 2013. ISSN 2322-5157.
[6] DAVENPORT, T. H. Analytics in Sports: The New Science of Winning.
International Institute for Analytics, n. February, p. 1–28, 2014.
[7] VINCENT, J.; STERGIOU, P.; KATZ, L. The Role of Databases in Sport Science: Current Practice and Future Potential. International Journal of Computer Science
in Sport, v. 8, n. 2, p. 50–66, 2009. Disponível em: <https://www.askus.ucalgary.
ca/cvpa/files/cvpa/IJCSS-Volume8{\_}Edition2{\_}Vince>.
[8] CAMILO, C.; SILVA, J. Mineração de Dados: Conceitos, tarefas, métodos e ferramentas. Universidade Federal de Goiás (UFC), p. 29, 2009. ISSN 16113349. [9] HAN, J.; KAMBER, M.; PEI, J. Introduction. [s.n.], 2012. 1–38 p. ISSN 1469-994X.
ISBN 9780123814791. Disponível em: <http://linkinghub.elsevier.com/retrieve/pii/ B9780123814791000010>.
[10] SMITH, L.; LIPSCOMB, B.; SIMKINS, A. Data mining in sports: predicting Cy Young award winners. Journal of Computing Sciences in Colleges, v. 22, n. 4, p. 115–121, 2007. ISSN 1937-4771. Disponível em: <http: //dl.acm.org/citation.cfm?id=1229637.1229658>.
[11] FISTER, I.; FISTER, D.; FONG, S. Data mining in sporting activities created by sports trackers. Proceedings - 2013 International Symposium on Computational and
Business Intelligence, ISCBI 2013, p. 88–91, 2013.
[12] BONIDIA, R. P.; BRANCHER, J. D.; BUSTO, R. M. Data Mining in Sports: A Systematic Review. IEEE Latin America Transactions, v. 16, n. 1, p. 232–239, 2018. ISSN 15480992.
[13] FAN, Z.; KUANG, Y.; LIN, X. Chess Game Result Prediction System. CS 229
Machine Learning Project Report, Stanford University CS, n. 1, p. 1–5, 2013.
[14] LEUNG, C. K.; JOSEPH, K. W. Sports data mining: Predicting results for the college football games. Procedia Computer Science, Elsevier Masson SAS, v. 35, n. C, p. 710–719, 2014. ISSN 18770509. Disponível em: <http: //dx.doi.org/10.1016/j.procs.2014.08.153>.
22
[15] HODGE, V. et al. Win Prediction in Esports: Mixed-Rank Match Prediction in Multi-player Online Battle Arena Games. n. 2015, 2017. Disponível em: <http://arxiv.org/abs/1711.06498>.
[16] DUBBS, A. Statistics-free sports prediction. Model Assisted Statistics and
Applications, v. 13, n. 2, p. 173–181, 2018. ISSN 15741699.
[17] CLASSIFICATION, I. Chapter 4 : Classification & Prediction.
[18] BOARD, F. C. Official Basketball Rules Basketball Equipment 2014. October, n. April, p. 1–22, 2014.
[19] MILJKOVIĆ, D. et al. The use of data mining for basketball matches outcomes prediction. SIISY 2010 - 8th IEEE International Symposium on Intelligent Systems
and Informatics, p. 309–312, 2010.
[20] STRECHT, P. et al. A comparative study of classification and regression algorithms for modelling students’ academic performance. 8th International Conference on
Educational Data Mining 2015, p. 392–395, 2015.
[21] DADOS, T. D. O Que São Dados ? p. 1–5. [22] MINING, D. Conhecimento de Dados.
[23] CASTANHEIRA, L. G. Aplicação de Técnicas de Mineração de Dados em Problemas de Classificação de Padrões. Belo Horizonte: UFMG, n. 5531, 2008. Disponível em: <http://www.cpdee.ufmg.br/{~}joao/CE/Trabalho/Trabalho2011/ ProblemaCromatografia/Dissertacao{\_}LucianaCastanheir>.
[24] MELO, M. D. D. E. Um Processo De Mineração De Dados Áreas Geográficas Fortaleza - Ceará. 2010.
[25] NILSSON, N. J. Introduction to Machine Learning. Machine Learning, v. 56, n. 2, p. 387–99, 2005. ISSN 10959572. Disponível em: <http://www.ncbi.nlm.nih.gov/ pubmed/21172442>.
[26] ADELE. Random Forests for Classification and Regression. p. 1–129, 2013. Disponível em: <papers3://publication/uuid/404E1731-D0C1-4F40-B17B-9F5075B971B9>. [27] KOHAVI, R. Ron Kohavi Int reduction Accuracy Scale-Up : the Learning Curves
The Induction Algorithms. n. Utgoff 1988, 2011. [28] KEOGH, E. Naïve Bayes Classifier. 2006.