• Nenhum resultado encontrado

ALEXANDRE MIKIO KIMURA FUKANO PREDIÇÃO DE RESULTADOS DA NBA COM BASE NA MINERAÇÃO DE DADOS

N/A
N/A
Protected

Academic year: 2021

Share "ALEXANDRE MIKIO KIMURA FUKANO PREDIÇÃO DE RESULTADOS DA NBA COM BASE NA MINERAÇÃO DE DADOS"

Copied!
23
0
0

Texto

(1)

ALEXANDRE MIKIO KIMURA FUKANO

PREDIÇÃO DE RESULTADOS DA NBA COM BASE NA

MINERAÇÃO DE DADOS

LONDRINA 2018

(2)

ALEXANDRE MIKIO KIMURA FUKANO

PREDIÇÃO DE RESULTADOS DA NBA COM BASE NA

MINERAÇÃO DE DADOS

Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel em Ciência da Computação.

Orientador: Prof. Dr. Jacques Duílio Brancher

Coorientador: Prof. Robson Parmezan Bo-nidia

LONDRINA 2018

(3)

Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração Automática do Sistema de Bibliotecas da UEL

Sobrenome, Nome.

Título do Trabalho : Subtitulo do Trabalho / Nome Sobrenome. - Londrina, 2017. 100 f. : il.

Orientador: Nome do Orientador Sobrenome do Orientador. Coorientador: Nome Coorientador Sobrenome Coorientador.

Dissertação (Mestrado em Ciência da Computação) - Universidade Estadual de Londrina, Centro de Ciências Exatas, Programa de Pós-Graduação em Ciência da Computação, 2017.

Inclui bibliografia.

1. Assunto 1 - Tese. 2. Assunto 2 - Tese. 3. Assunto 3 - Tese. 4. Assunto 4 - Tese. I. Sobrenome do Orientador, Nome do Orientador. II. Sobrenome Coorientador, Nome Coorientador. III. Universidade Estadual de Londrina. Centro de Ciências Exatas. Programa de Pós-Graduação em Ciência da Computação. IV. Título.

(4)

ALEXANDRE MIKIO KIMURA FUKANO

PREDIÇÃO DE RESULTADOS DA NBA COM BASE NA

MINERAÇÃO DE DADOS

Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel em Ciência da Computação.

BANCA EXAMINADORA

Orientador: Prof. Dr. Jacques Duílio Brancher

Universidade Estadual de Londrina

Prof. Dr. Segundo Membro da Banca Universidade/Instituição do Segundo Membro da Banca – Sigla instituição

Prof. Dr. Terceiro Membro da Banca Universidade/Instituição do Terceiro Membro da Banca – Sigla instituição

Prof. Ms. Quarto Membro da Banca Universidade/Instituição do Quarto Membro da Banca – Sigla instituição

(5)

Este trabalho é dedicado às crianças adultas que, quando pequenas, sonharam em se tornar cientistas.

(6)

AGRADECIMENTOS

Os agradecimentos principais são direcionados à Gerald Weber, Miguel Frasson, Leslie H. Watter, Bruno Parente Lima, Flávio de Vasconcellos Corrêa, Otavio Real Sal-vador, Renato Machnievscz1 e todos aqueles que contribuíram para que a produção de

trabalhos acadêmicos conforme as normas ABNT com LATEX fosse possível.

Agradecimentos especiais são direcionados ao Centro de Pesquisa em Arquitetura da Informação2 da Universidade de Brasília (CPAI), ao grupo de usuários latex-br3 e aos

novos voluntários do grupo abnTEX24 que contribuíram e que ainda contribuirão para a

evolução do abnTEX2.

1

Os nomes dos integrantes do primeiro projeto abnTEX foram extraídos de <http://codigolivre.org. br/projects/abntex/>

2 <http://www.cpai.unb.br/>

3 <http://groups.google.com/group/latex-br>

(7)

“Não vos amoldeis às estruturas deste mundo, mas transformai-vos pela renovação da mente, a fim de distinguir qual é a vontade de Deus: o que é bom, o que Lhe é agradável, o que é perfeito. (Bíblia Sagrada, Romanos 12, 2))

(8)

SOBRENOME, N. A.. Predição de resultados da NBA com base na mineração de dados. 2018. 22f. Dissertação (Mestrado em Ciência da Computação) – Universidade Estadual de Londrina, Londrina, 2018.

RESUMO

A predição dos mais variados esportes se tornou um desafio voltada para as pesquisas acadêmicas. O basquetebol é um desses esportes na qual cresceu muito e que atualmente possui a liga denominada NBA (National Basketball Association). Esta que é a principal liga de basquetebol profissional da América do Norte, além disso, sua fama conquista um crescente grupo de fãs ao redor do mundo. Ao longo do tempo, todas as informações da NBA foram armazenadas e consequentemente foi criada uma enorme base de dados. Com todas essas informações, este trabalho propõe utilizar a técnica de mineração de dados para uma boa acurácia na predição dos resultados dos jogos da NBA com base em métodos estatísticos.

(9)

SOBRENOME, N. A.. Title of the Work. 2018. 22p. Master’s Thesis (Master in Science in Computer Science) – State University of Londrina, Londrina, 2018.

ABSTRACT

The prediction of the most varied sports has become a challenge focused on academic research. Basketball is one of those sports in which he grew up and currently owns the league called the NBA (National Basketball Association). This is the leading professional basketball league in North America, in addition, its fame achieves a growing group of fans around the world. Over time, all NBA information was stored and a huge data base. With all this information, this paper proposes to use the data mining technique for good predictive accuracy. of NBA game results based on statistical methods..

(10)

LISTA DE ILUSTRAÇÕES

Figura 1 – Regras Básicas do basquete/NBA - Via Globoesporte.com . . . 17 Figura 2 – Mineração de Dados . . . 19

(11)
(12)

LISTA DE ABREVIATURAS E SIGLAS

ABNT Associação Brasileira de Normas Técnicas

BNDES Banco Nacional de Desenvolvimento Econômico e Social IBGE Instituto Nacional de Geografia e Estatística

IBICT Instituto Brasileiro de Informação em Ciência e Tecnologia NBR Norma Brasileira

(13)

SUMÁRIO

1 INTRODUÇÃO . . . . 13 2 ÁREA DE ATUAÇÃO . . . . 15 3 TRABALHOS RELACIONADOS . . . . 18 4 FUNDAMENTAÇÃO TEÓRICA . . . . 19 4.1 Aprendizado de máquina . . . . 19 4.1.1 Random Forest . . . 20 4.1.1.1 Naive Bayes . . . 20 REFERÊNCIAS . . . . 21

(14)

13

1 INTRODUÇÃO

Com a crescente popularização dos muitos esportes em nossa sociedade, diversas organizações foram surgindo e se firmando com o intuito de juntar os seus fãs e criar diversos eventos esportivos. Com isso, essas organizações ao passar dos anos movem um grande volume monetário e de pessoas que consequentemente impactam todos os setores governamentais[1].

Com os eventos esportivos(Ligas Profissionais ou amadoras), tem-se as apostas esportivas ou casas de apostas desportivas[2][3], ambas são realizadas por fãs. Algumas destas acabam se tornando um bom ne´gocio e por isso envolvem muito dinheiro. Basi-camente faz-se a predição dos jogos[4][5] na qual tentam adivinhar qual time ou atleta que potencialmente irá sair vencedor. Muitas das vezes esta aposta é feita com base na intuição da própria pessoa ou no fanatismo em um determinado time ou atleta, sem um estudo prévio feito anteriormente.

Narradores, comentaristas, apresentadores, técnicos, atletas e ex atletas tradicio-nalmente usam a mesma ideia sobre as previsões de jogos, usam da experiência vivida, instinto ou resultados históricos para fazer a análise entre dois concorrentes. Consequen-temente a precisão sobre os resultados pode variar muito, tornando essa predição um desafio a ser estudada[6].

Com vários eventos esportivos sendo realizados, as informações dos jogos, equipes e atletas vão sendo armazenadas gerando uma enorme base de dados esportivos[7]. Todas essas informações estão em sua forma raiz e utilizando o método chamado mineração de dados[8][9], essas informações podem ser lidas, processadas e reutilizadas para um trabalho futuro, tal como a mineração de dados esportivos[10][11][12].

A área acadêmica já utiliza essas informações obtidas a partir da mineração de da-dos para diversos trabalho de predição em vários tipos de esportes como o xadrez(individual)[13], futebol americano(coletivo)[14] e esportes eletrônicos(virtual)[15]. Porém há muita falta de informações ainda, que por sua vez dificulta o estudo de algumas modalidades, sendo assim, empobrecendo a predição destes esportes.

Neste trabalho, a abordagem será feita no basquetebol, esporte muito famoso nos dias atuais e que atinge uma proporção global. A liga que será estudada para as predições dos jogos será a liga denominada NBA(National Basketball Association), esta que é a principal liga da América do Norte e a principal liga internacional de basquetebol.

Para realizar as predições, usaremos métodos estatísticos[16] e classificatórios[17] baseando-se nos dados históricos das partidas ou seja, para prever jogos de uma tempo-rada, utilizaremos os dados dos jogos da temporada anterior para prever os vencedor e o

(15)

14

(16)

15

2 ÁREA DE ATUAÇÃO

Para melhor entendimento deste trabalho, explicaremos melhor o esporte e a liga que será aplicada a nossa predição de jogos.

O basquetebol é um esporte norte americano criado pelo professor canadense James Naismith em 1891. Desde então a fama deste esporte foi crescendo ao longo do tempo. Juntamente suas regras foram sendo alteradas para melhorar o estilo do jogo. Como as previsões são de 2014 até 2018, usaremos as regras mais recentes do basquetebol. São elas: -> O jogo possui 4 tempos de 10 minutos. Se houver empate nesse tempo, seŕa acrescidos tempos de 5 min para desempatar.

-> O jogos possui duas equipes com 5 pessoas cada. A equipe que fizer mais pontos será a vencedora.

-> Há 3 possibilidades de pontuações no decorrer da partida, 1, 2 e 3 pontos respectivamente. A pontuação esta relacionada com a distância que o arrete foi feito a partir da cesta

-> A partida possui 3 árbitros para supervisionar todos os lances.

-> Se um jogador comete 5 faltas, a próxima será punido com a eliminação desse jogador.

Essas são as principais regras do basquetebol, há muito mais regras e podem ser vistas em [18]

A NBA(National Basketball Association) foi fundada na cidade de Nova Iorque em 6 de Junho de 1946. É a principal liga norte americana e a mais importante liga mundial de basquetebol. A liga tem o formato com 30 times, sendo uma canadense o restante norte americanas. Esse formato é dividia em e fases:

A Temporada regular começa por volta de outubro e segue até abril do ano se-guinte. Cada time joga 82 jogos contra todos os outros, sendo que pode enfrentar alguns times 3 ou 4 vezes, contra times da mesma divisão são sempre 4 jogos, das outras divisões usa-se um sistema dependendo de quantas vezes enfrentou aquele time nas temporadas anteriores. Apesar disso o sistema de pontuação que classifica para os playoffs é válido apenas para os times da mesma conferência.

A segunda fase são os playoffs (ou mata-mata) começam por volta de abril e seguem até maio. São séries "melhor-de-sete"compostas por 8 times em cada conferência. O primeiro colocado de cada conferência enfrenta o último, o segundo o penúltimo, e assim sucessivamente. Os três campeões de divisão tem direito a ficar entre os quatro primeiros

(17)

16

para mais jogos em casa, embora um time que tenha ficado em segundo na sua divisão mas com resultado melhor que um líder de outra possa ter um posicionamento melhor. Os jogos são realizados de tal maneira: os dois primeiros na cidade do time de melhor campanha, seguido por dois jogos na cidade do outro time. Caso faça-se necessário outras partidas elas serão disputadas alternadamente entre as cidades, sendo o time de melhor campanha o favorecido.

A última fase são as finais da NBA são realizadas sempre em meados de junho. É disputada pelo campeão da Conferência Leste contra o campeão da Conferência Oeste. Assim como os playoffs também é disputada em uma série "melhor-de-sete". Tem a vanta-gem no mando de quadra o time de melhor campanha na temporada regular, disputando em casa as duas primeiras partidas e, se necessários, os jogos cinco e sete.

Na NBA algumas regras básicas do basquetebol se alteram também:

-> O jogo possui 4 tempos de 12 minutos. Se houver empate nesse tempo, seŕa acrescidos tempos de 5 min para desempatar.

-> Se um jogador comete 6 faltas, a próxima será punido com a eliminação desse jogador.

(18)

17

(19)

18

3 TRABALHOS RELACIONADOS

A ideia do trabalho de [14] abrange uma predição no futebol americano, mais precisamente do National Collegiate Athletic Association(NCAA). Segundo o autor, a abordagem é evitar calcular qual equipe saíra vencedora num confronto direto mas sim analisar um conjunto de times e descobrir quais são os times que apresentaram similari-dade alta com cada um dos concorrentes, encontrando assim os resultados entre o time similar contra o time concorrente. Os dados desse resultado serão utilizados para prever o jogos entre as duas equipes originais.

Para que seja possível conseguir esses dados, usou-se os resultados de jogos passa-dos. Cada time teve suas características salvas e jogadas em um mapa onde cada ponto é um time, sendo assim a distância entre eles caracterizava se um time era similar com o outro ou não.

Para fazer a previsão entre os times originais, foi necessário usar 4 dimensões estatísticas juntamente com normalizações nos valores mais extremos. Por fim, a equipe que possuir a maior soma das quatro estatísticas é declarada o vencedor previsto, ou seja, o resultado é de classificação.

O autor de [19] aborda uma predição no basquetebol baseada em técnicas de mineração de dados para criar um sistema que prevê e calcula resultados da NBA. Mas diferentemente de [14], ele utiliza algoritmos para o problema de classificação, já que no basquetebol não há empates.

Utilizou-se duas classes, uma é se o time obtém a vitória jogando em casa e a outra é se o time ganha fora de casa. Para cada equipe, existe dois grupos de atributos, um é baseada em estatísticas do esporte basquete(arremesso, faltas, bloqueios, etc) e outra em estatísticas da equipe(Vitórias, derrotas, número de jogos, etc).

Para aumentar a eficiência do classificador do sistema, utilizou-se seleção de atribu-tos e normalização. Feito isso, testes foram realizados em diversos algoritmos de classificação[20] como a árvore de decisão, k-vizinhos, naive bayes e SVM. O melhor resultado saiu do Naive Bayes.

(20)

19

4 FUNDAMENTAÇÃO TEÓRICA

A mineração de dados[8] é utilizada quando se tem uma grande base de dados[21] que potencialmente pode trazer informações para serem utilizados em trabalhos futuros.

O processo da mineração de dado se baseia inicialmente nas Databases, é nessa etapa que as informações em seu estado bruto estão armazenadas. Em seguida, tem-se a seleção de alguns atributos que possam a ser relevantes. Após serem escolhidos os atributos de interesse vem o processamento de dados que tem o intuito de fazer a limpeza dos dados, esse procedimento elimina informações Incompletas, Redundantes, Ruidosas e Esparsas a fim de levar adiante, somente informações consistentes.

O próximo passo do processo é a seleção dos itens relevantes da etapa anterior para o data mining. Esta que utiliza reconhecimento de padrões para agrupar os dados de forma que exista uma relação entre elas. Por fim, a etapa de avaliação dessas informações, permite que o grupo de dados possa transmitir conhecimento para que sejam pesquisadas em diversos projetos ou pesquisas. A figura 2 retrata a técnica de mineração de dados

Figura 2 – Mineração de Dados

Feito a extração desse dados[22], podemos usa-los em diversas pesquisas como por exemplo problemas de classificação de padrões[23], predições na área esportiva[14][19][12][5][10] e áreas de pesquisas criminais[24].

4.1

Aprendizado de máquina

Aprendizado de máquina[25] é uma área da Inteligência Artificial que possui um conjunto de regras e procedimentos que permite máquinas de aprender baseando-se em

(21)

20

padrões e relações sem serem programados inicialmente. Além disso, existe diversos algo-rítimos que facilitam esta técnica por meio da estatística, agrupamento e classificação de informações.

4.1.1 Random Forest

O algoritmo de Random Forest[26] se baseia em gerar arvores de decisão em di-ferentes subconjuntos de dados. Cada subconjunto de treinamento é criado para cada árvore usando uma amostragem aleatória com reposição. Esse processo permite que uma variação grande dos dados seja combinada e explorada. Para problemas de classificação, a saída é definida pela da maioria.

4.1.1.1 Naive Bayes

O algoritmo Naive Bayes[27][28] é um classificador probabilístico baseado no Teo-rema de Bayes e possui um desempenho relativamente maior do que outros classificadores. Além disso, o Naive Bayes só precisa de um pequeno número de dados de teste para con-cluir classificações com uma boa precisão. A principal característica do algoritmo é que ele desconsidera completamente a relação entre as variáveis.

(22)

21

REFERÊNCIAS

[1] VOOR, B. et al. THE POWER OF SPORT TO INFLUENCE SOCIETY FOR THE BETTER. 2017.

[2] CAMPINAS, U. E. D. Xxxx 1, 1. [S.l.: s.n.], 2010. 1–3 p. ISBN 9780857190390. [3] WONG, S. Sharp Sports Betting. [s.n.], 2001. ISBN 9780935926446. Disponível em:

<http://stavochka.com/files/Sharp{\_}Sports{\_}Betti>.

[4] SCHUMACHER, C. et al. (12) United States Patent. v. 2, n. 12, 2002.

[5] HAGHIGHAT, M.; RASTEGARI, H.; NOURAFZA, N. A Review of Data Mining Techniques for Result Prediction in Sports. Advances in Computer Science, v. 2, n. 5, p. 7–12, 2013. ISSN 2322-5157.

[6] DAVENPORT, T. H. Analytics in Sports: The New Science of Winning.

International Institute for Analytics, n. February, p. 1–28, 2014.

[7] VINCENT, J.; STERGIOU, P.; KATZ, L. The Role of Databases in Sport Science: Current Practice and Future Potential. International Journal of Computer Science

in Sport, v. 8, n. 2, p. 50–66, 2009. Disponível em: <https://www.askus.ucalgary.

ca/cvpa/files/cvpa/IJCSS-Volume8{\_}Edition2{\_}Vince>.

[8] CAMILO, C.; SILVA, J. Mineração de Dados: Conceitos, tarefas, métodos e ferramentas. Universidade Federal de Goiás (UFC), p. 29, 2009. ISSN 16113349. [9] HAN, J.; KAMBER, M.; PEI, J. Introduction. [s.n.], 2012. 1–38 p. ISSN 1469-994X.

ISBN 9780123814791. Disponível em: <http://linkinghub.elsevier.com/retrieve/pii/ B9780123814791000010>.

[10] SMITH, L.; LIPSCOMB, B.; SIMKINS, A. Data mining in sports: predicting Cy Young award winners. Journal of Computing Sciences in Colleges, v. 22, n. 4, p. 115–121, 2007. ISSN 1937-4771. Disponível em: <http: //dl.acm.org/citation.cfm?id=1229637.1229658>.

[11] FISTER, I.; FISTER, D.; FONG, S. Data mining in sporting activities created by sports trackers. Proceedings - 2013 International Symposium on Computational and

Business Intelligence, ISCBI 2013, p. 88–91, 2013.

[12] BONIDIA, R. P.; BRANCHER, J. D.; BUSTO, R. M. Data Mining in Sports: A Systematic Review. IEEE Latin America Transactions, v. 16, n. 1, p. 232–239, 2018. ISSN 15480992.

[13] FAN, Z.; KUANG, Y.; LIN, X. Chess Game Result Prediction System. CS 229

Machine Learning Project Report, Stanford University CS, n. 1, p. 1–5, 2013.

[14] LEUNG, C. K.; JOSEPH, K. W. Sports data mining: Predicting results for the college football games. Procedia Computer Science, Elsevier Masson SAS, v. 35, n. C, p. 710–719, 2014. ISSN 18770509. Disponível em: <http: //dx.doi.org/10.1016/j.procs.2014.08.153>.

(23)

22

[15] HODGE, V. et al. Win Prediction in Esports: Mixed-Rank Match Prediction in Multi-player Online Battle Arena Games. n. 2015, 2017. Disponível em: <http://arxiv.org/abs/1711.06498>.

[16] DUBBS, A. Statistics-free sports prediction. Model Assisted Statistics and

Applications, v. 13, n. 2, p. 173–181, 2018. ISSN 15741699.

[17] CLASSIFICATION, I. Chapter 4 : Classification & Prediction.

[18] BOARD, F. C. Official Basketball Rules Basketball Equipment 2014. October, n. April, p. 1–22, 2014.

[19] MILJKOVIĆ, D. et al. The use of data mining for basketball matches outcomes prediction. SIISY 2010 - 8th IEEE International Symposium on Intelligent Systems

and Informatics, p. 309–312, 2010.

[20] STRECHT, P. et al. A comparative study of classification and regression algorithms for modelling students’ academic performance. 8th International Conference on

Educational Data Mining 2015, p. 392–395, 2015.

[21] DADOS, T. D. O Que São Dados ? p. 1–5. [22] MINING, D. Conhecimento de Dados.

[23] CASTANHEIRA, L. G. Aplicação de Técnicas de Mineração de Dados em Problemas de Classificação de Padrões. Belo Horizonte: UFMG, n. 5531, 2008. Disponível em: <http://www.cpdee.ufmg.br/{~}joao/CE/Trabalho/Trabalho2011/ ProblemaCromatografia/Dissertacao{\_}LucianaCastanheir>.

[24] MELO, M. D. D. E. Um Processo De Mineração De Dados Áreas Geográficas Fortaleza - Ceará. 2010.

[25] NILSSON, N. J. Introduction to Machine Learning. Machine Learning, v. 56, n. 2, p. 387–99, 2005. ISSN 10959572. Disponível em: <http://www.ncbi.nlm.nih.gov/ pubmed/21172442>.

[26] ADELE. Random Forests for Classification and Regression. p. 1–129, 2013. Disponível em: <papers3://publication/uuid/404E1731-D0C1-4F40-B17B-9F5075B971B9>. [27] KOHAVI, R. Ron Kohavi Int reduction Accuracy Scale-Up : the Learning Curves

The Induction Algorithms. n. Utgoff 1988, 2011. [28] KEOGH, E. Naïve Bayes Classifier. 2006.

Referências

Documentos relacionados

O objetivo desta pesquisa foi investigar o papel da Educação Física na Educação Infantil, considerando-se os objetivos gerais, objetivos específicos, os conteúdos da

98: “En- quanto não permitir o fundo de custeio dos serviços de inspeção, a designação de inspetores especializados para orientação do en- sino da Musica e dos exercícios

sem discriminação”; “...o ensino inclusivo será uma oportunidade das pessoas portadoras de necessidades especiais de mostrar suas potencialidades”; “espero que esta

Aprendizado geral dos jogos esportivos de forma implícita - lúdica Escola da Bola - O ABC da Aprendizagem do Jogo Implícito / Lúdico. O Problema / As causas A solução:

Savants são pessoas que demonstram capacidades superiores em uma inteligência, enquanto suas outras inteligências funcionam num baixo ritmo.. Ex.: Rain Man (baseado numa

Mediação significa que o t rabalho do professor é viabilizar a relação at iva do aluno com a mat éria de est udo, at ravés de obj et ivos, cont eúdos, mét odos e formas

Anche dopo il rilascio bisogna restare nella posizione precedentemente assunta fino al momento dell'impatto della freccia sul bersaglio ed evitare bruschi cali di tensione

1 - Entrada da mão muito próxima da cabeça. 2 - Entrada da mão fora da largura do ombro.. 3 -Tração com o braço fora do alinhamento do corpo.. 4 - Batida com elevação excessiva