• Nenhum resultado encontrado

Análise de desempenho esportivo baseada em dados estatísticos

N/A
N/A
Protected

Academic year: 2021

Share "Análise de desempenho esportivo baseada em dados estatísticos"

Copied!
33
0
0

Texto

(1)

Universidade Federal Fluminense

Instituto de Computa¸

ao

Departamento de Ciˆ

encia da Computa¸

ao

Frederico Queiroz Nascimento

AN ´

ALISE DE DESEMPENHO ESPORTIVO

BASEADA EM DADOS ESTAT´ISTICOS

Niter´

oi-RJ

2017

(2)

ii FREDERICO QUEIROZ NASCIMENTO

AN ´ALISE DE DESEMPENHO ESPORTIVO BASEADA EM DADOS ESTAT´ISTICOS

Trabalho submetido ao Curso de Bacharelado em Sistemas de Informa-¸c˜ao da Universidade Federal Fluminense como requisito parcial para a obten¸c˜ao do t´ıtulo de Bacharel em Sistemas de Informa¸c˜ao.

Orientador: Prof. Daniel Cardoso M. de Oliveira

Niter´oi-RJ 2017

(3)

Ficha Catalográfica elaborada pela Biblioteca da Escola de Engenharia e Instituto de Computação da UFF

N244 Nascimento, Frederico Queiroz

Análise de desempenho esportivo baseada em dados estatísticos / Frederico Queiroz Nascimento. – Niterói, RJ : [s.n.], 2017.

31 f.

Projeto Final (Bacharelado em Sistemas de Informação) – Universidade Federal Fluminense, 2017.

Orientador: Daniel Cardoso M. de Oliveira.

1. Mineração de dados (Computação). 2. Análise de desempenho. 3. Futebol. 4. Estatística. 5. Sistema de informação. I. Título.

CDD 005.741

(4)

iii FREDERICO QUEIROZ NASCIMENTO

AN ´ALISE DE DESEMPENHO ESPORTIVO BASEADA EM DADOS ESTAT´ISTICOS

Trabalho submetido ao Curso de Bacharelado em Sistemas de Informa-¸c˜ao da Universidade Federal Fluminense como requisito parcial para a obten¸c˜ao do t´ıtulo de Bacharel em Sistemas de Informa¸c˜ao.

Aprovado por:

Prof. Daniel Cardoso M. de Oliveira, D.Sc. - Orientador UFF

Profa. Aline Marins Paes Carvalho, D.Sc. UFF

Prof. Bruno Lopes, D.Sc. UFF

Niter´oi-RJ 2017

(5)

iv

Dedico este trabalho ao meu pai, Luis Carlos dos Santos Nascimento, que gostaria muito de ter tido a oportunidade de assistir a esta defesa. Este cara nunca mediu esfor¸cos para me proporcionar tudo aquilo que eu precisei e sempre esteve presente para me incentivar e apoiar em todas as etapas da minha vida.

(6)

v

Agradecimentos

`

A minha fam´ılia que sempre me deu a orienta¸c˜ao necess´aria para que eu fizesse as melhores escolhas e me proporcionou todos os ou meios para que eu pudesse alcan¸car os meus objetivos.

Ao meu orientador que sempre esteve dispon´ıvel para auxiliar no que eu precisasse. Aos professores da UFF que compartilharam seu conhecimento comigo e me fizeram uma pessoa mais s´abia a cada disciplina.

Aos professores Aline Marins Paes Carvalho e Bruno Lopes pela presen¸ca na banca examinadora.

(7)

vi

Resumo

Desde a profissionaliza¸c˜ao do futebol, treinadores, auxiliares e gerentes dedicam-se a estudar o comportamento dos times advers´arios. Seja por meio de informa¸c˜oes estrat´ e-gicas, imagens de v´ıdeo ou, mais recentemente, dados estat´ısticos, estes profissionais tˆem buscado uma forma de explorar os pontos fracos e neutralizar os pontos fortes dos opo-nentes [1]. E, dada a competitividade do esporte e a quantidade de recursos tecnol´ogicos dispon´ıveis atualmente, esta pr´atica deixou de ser uma vantagem e passou a ser essencial para os clubes de alto rendimento. Cada partida de futebol gera uma quantidade enorme de dados que se armazenados, tratados e analisados corretamente podem auxiliar `as equi-pes na formula¸c˜ao de estrat´egias e na tomada de decis˜ao e, consequentemente, aumentar as suas chances de ˆexito. Este trabalho dedica-se justamente a apresentar, a partir des-tes dados, gr´aficos e ´arvores de decis˜ao que permitam ao treinador do time utilizar estas informa¸c˜oes na elabora¸c˜ao de t´aticas.

(8)

vii

Abstract

Since football (soccer) was professionalized, coaches, assistants and managers have studied the adversary team’s behavior. Either through strategy information, or video images or, more recently, statistics data, these professionals have researched a way to neutralize the opponent’s strengths and explore the opponent’s weakness. And once sport is more competitive and the amount of technological resources has increased, this practice became not an advantage anymore, but an essential thing to high performance clubs. Each football match generates a big number of data which, if correctly stored, treated and analyzed can help teams to create strategies and make decisions and, consequently, increase their chances to win. This study aims to present, from these data, graphs and decision trees that allow the coach using these informations to elaborate tactics.

(9)

Sum´

ario

Resumo vi Abstract vii Lista de Figuras x Lista de Tabelas xi 1 Introdu¸c˜ao 1

1.1 Cen´ario Atual . . . 1

1.2 Problema . . . 1

1.3 Proposta . . . 2

2 Referencial Te´orico 3 2.1 Minera¸c˜ao de dados . . . 3 2.1.1 Classifica¸c˜ao . . . 4 2.1.2 Clusteriza¸c˜ao . . . 5 3 Abordagem Proposta 6 3.1 Busca . . . 6 3.2 Sele¸c˜ao . . . 7 3.3 Estrutura¸c˜ao . . . 7

3.4 Extract, Transform, Load . . . 9

3.4.1 Extract . . . 9

3.4.2 Transform . . . 9

3.4.3 Load . . . 9

3.5 Minera¸c˜ao . . . 9

(10)

ix 3.6 Avalia¸c˜ao . . . 10

(11)

x

Lista de Figuras

2.1 Processo de KDD (Knowledge Discovery in Database) [2] . . . 4

2.2 Exemplo de ´arvore de decis˜ao [3] . . . 5

3.1 Diagrama Conceitual . . . 8

3.2 Workflow . . . 10

3.3 Exemplo de arquivo .tab . . . 11

3.4 Vit´orias por mando de campo (%) . . . 12

3.5 Finaliza¸c˜oes de dentro da ´area x Posicionamento no ataque . . . 12

3.6 Contra ataques x Liga¸c˜oes diretas . . . 13

3.7 Campe˜ao: Palmeiras (2016) . . . 16

3.8 Campe˜ao: Corinthians (2015) . . . 16

3.9 Rebaixado: Internacional (2016) . . . 17

(12)

xi

Lista de Tabelas

3.1 Vit´orias por mando de campo . . . 10 3.2 Campeonato brasileiro 2016 . . . 14 3.3 Campeonato brasileiro 2015 . . . 15

(13)

Cap´ıtulo 1

Introdu¸

ao

1.1

Cen´

ario Atual

O futebol ´e um dos poucos esportes onde nem sempre o time mais forte vence[1]. A montagem de um grande elenco n˜ao ´e garantia de t´ıtulos no final da temporada [4] e ´e cada vez mais comum vermos clubes modestos, com baixos or¸camentos chegarem `as decis˜oes dos grandes campeonatos e at´e mesmo ganharem t´ıtulos importantes [5]. Em muitos casos, o grande respons´avel pelo sucesso destes clubes n˜ao ´e um fator t´ecnico, f´ısico ou mental e sim t´atico: a an´alise de desempenho. Por isso, esta ´e uma ´area que vem recebendo cada vez mais aten¸c˜ao e investimento dentro dos clubes.

Esta pr´atica possui uma s´erie de aplica¸c˜oes que v˜ao desde a contrata¸c˜ao de atletas, at´e a melhora no aproveitamento da equipe, passando pela preven¸c˜ao de les˜oes e aperfei-¸coamento dos treinos. ´E importante destacar que o analista de desempenho - profissional respons´avel por avaliar individual e coletivamente uma equipe com base em indicadores e por buscar identificar padr˜oes de comportamento e suas varia¸c˜oes nas equipes advers´arias - n˜ao vem para substituir o trabalho do treinador, muito pelo contr´ario; o objetivo dele ´e justamente transmitir informa¸c˜oes `a comiss˜ao t´ecnica que auxiliem na formula¸c˜ao de estrat´egias para aumentar a chance de ˆexito da equipe nas competi¸c˜oes.

1.2

Problema

A participa¸c˜ao de empresas especializadas no fornecimento de dados para os clubes no futebol cresceu muito nos ´ultimos anos [6]. Estas companhias disponibilizam

(14)

2 ¸c˜oes atrav´es de gr´aficos, tabelas e desenhos, sempre procurando facilitar a compreens˜ao de quem est´a lendo. Os clubes por sua vez recebem um volume gigantesco de dados que, muitas vezes, n˜ao s˜ao convertidos em a¸c˜oes efetivas dentro de campo, seja por n˜ao cap-tarem uma informa¸c˜ao que n˜ao estava t˜ao clara ou por terem interpretado alguma outra de forma equivocada.

Alheio a isso, dificilmente uma empresa, sozinha, conseguir´a disponibilizar todos os dados relevantes para uma an´alise completa das partidas. Logo, para que os clubes possam contar com uma quantidade maior de informa¸c˜oes, eles precisam aumentar o seu custo j´a que s˜ao obrigados a lidar com a integra¸c˜ao dos dados, que vˆem de diferentes fontes. Este ´e um trabalho que n˜ao deve ser manual, j´a que estamos falando de um volume de dados muito grande e que precisam ser manipulados num curto intervalo de tempo.

1.3

Proposta

Este trabalho tem por objetivo coletar dados de diferentes bases e gerar um modelo interpret´avel por meio de gr´aficos e ´arvores de decis˜ao para fornecer informa¸c˜oes estrat´ e-gicas aos clubes de futebol, eliminando o processo de interpreta¸c˜ao dos dados por parte da comiss˜ao t´ecnica.

Como deseja-se que qualquer pessoa, mesmo sem qualquer conhecimento t´ecnico, possa entendˆe-los e traduzi-los em a¸c˜oes, as ´arvores e os gr´aficos s˜ao fundamentais, pois ambos s˜ao instrumentos que tornam a leitura bastante intuitiva.

O clube, al´em de ter `a disposi¸c˜ao todos os dados de que precisa, pode receber as informa¸c˜oes apresentadas de maneira clara e objetiva. A base de dados completa possibilita a descoberta de regras muitas vezes inimagin´aveis, o que pode deixar o clube um passo `a frente dos demais.

(15)

Cap´ıtulo 2

Referencial Te´

orico

2.1

Minera¸

ao de dados

Minera¸c˜ao de dados se refere ao processo autom´atico de descoberta de conheci-mento no formato de regras, padr˜oes e modelos novos, interessantes e potencialmente ´

uteis, a partir de bases de dados. ´E a etapa principal do processo de KDD (Knowledge Discovery in Databases), no qual ´e realizada a busca por novas informa¸c˜oes e conheci-mento. [7]

O processo de KDD ´e composto por cinco fases e ´e apresentado na figura 2.1: 1. Sele¸c˜ao - A primeira etapa do processo de KDD possui um impacto significativo

sobre o resultado final, pois ´e nela que s˜ao escolhidos os conjuntos de dados que ser˜ao utilizados durante o processo. Estes dados vˆem de diferentes fontes como arquivos, planilhas, bancos de dados e sistemas. (Figura 2.1 - Parte 1)

2. Pr´e-processamento - Nesta etapa, os valores dos campos s˜ao normalizados e os registros duplicados s˜ao eliminados, assim como poss´ıveis outliers (ru´ıdos). Dados externos tamb´em podem ser agregados para enriquecer a base. (Figura 2.1 - Parte 2)

3. Transforma¸c˜ao - Os dados s˜ao armazenados e formatados corretamente a fim de possibilitar a realiza¸c˜ao da etapa de seguinte. ´E nesta etapa tamb´em que os dados derivados - que s˜ao obtidos a partir de outros j´a existentes - s˜ao gerados. (Figura 2.1 - Parte 3)

(16)

4 4. Minera¸c˜ao - S˜ao aplicados os algoritmos de minera¸c˜ao para a constru¸c˜ao de ´arvores de decis˜ao com o objetivo de descobrir padr˜oes e regras que possam ser ´uteis ao dom´ınio da aplica¸c˜ao. (Figura 2.1 - Parte 4)

5. Interpreta¸c˜ao e avalia¸c˜ao - Os resultados s˜ao analisados a partir dos mecanis-mos utilizados na etapa anterior, dando in´ıcio ao processo de tomada de decis˜ao. S˜ao retiradas regras ´obvias e absurdas, sendo aproveitadas somente aquelas mais relevantes. (Figura 2.1 - Parte 5)

Figura 2.1: Processo de KDD (Knowledge Discovery in Database) [2]

2.1.1

Classifica¸

ao

Classifica¸c˜ao ´e a identifica¸c˜ao da classe a qual um elemento pertence a partir de seus atributos. Por defini¸c˜ao, o conjunto de poss´ıveis classes ´e discreto e predefinido. Classifica¸c˜ao ´e dito um processo de minera¸c˜ao supervisionado pois os elementos que fazem parte da base de treinamento j´a tˆem seu atributo classe informado. [7]

2.1.1.1 Arvore de decis˜´ ao

Na montagem da ´arvore, cada caminho da raiz at´e a folha representa uma re-gra, definida como a conjun¸c˜ao das condi¸c˜oes percorridas, implicando no valor da classe encontrada na folha em quest˜ao. Estas ´arvores s˜ao obtidas a partir de algoritmos de mi-nera¸c˜ao de dados e sua efic´acia depende, dentre outros fatores, do tamanho da sua base de treinamento. A figura 2.2 apresenta um exemplo de ´arvore de decis˜ao.

(17)

5

Figura 2.2: Exemplo de ´arvore de decis˜ao [3]

Cada algoritmo gera in´umeras regras de associa¸c˜ao, por´em algumas podem ser muito ´obvias e outras podem ser totalmente incoerentes. As regras de associa¸c˜ao podem apresentar diferentes graus de suporte e de confian¸ca.

1. O suporte ´e a propor¸c˜ao de transa¸c˜oes da base de dados que cont´em este conjunto de dados.

2. A confian¸ca indica o percentual de ocorrˆencia da regra no conjunto de dados.

2.1.2

Clusteriza¸

ao

Clusteriza¸c˜ao ´e a tarefa de identificar um conjunto finito de categorias ou grupos (clusters) que contˆem objetos similares. Clusteriza¸c˜ao ´e dito um processo de minera¸c˜ao n˜ao supervisionado, pois os elementos que fazem parte da base de entrada n˜ao tˆem o seu grupo definido. [7]

(18)

Cap´ıtulo 3

Abordagem Proposta

Com o surgimento dos novos softwares de minera¸c˜ao de dados, a busca por regras de associa¸c˜ao tornou-se uma tarefa muito mais f´acil. Entretanto, para que essas regras sejam ´uteis ao usu´ario, uma base de dados robusta, estruturada e abrangente se faz necess´aria. Por isso, o processo de constru¸c˜ao da base de dados, desde a modelagem at´e a inclus˜ao dos dados nas tabelas, ´e a parte mais trabalhosa. Como a inten¸c˜ao deste trabalho ´e gerar valor para o mundo do futebol e mostrar um diferencial em rela¸c˜ao aos portais que disp˜oem dos dados das partidas, optou-se por criar um banco de dados do zero, reunindo dados de diferentes sites, de forma a torn´a-la a mais completa poss´ıvel, em vez de, simplesmente, utilizar uma base qualquer sobre o tema encontrada no reposit´orio de algum site da internet.

3.1

Busca

O primeiro passo, foi a realiza¸c˜ao de uma busca profunda por sites que dispunham de dados estruturados relacionados ao futebol. O objetivo foi reunir o m´aximo de informa-¸c˜oes relevantes no m´ınimo de fontes diferentes para facilitar a integra¸c˜ao dos dados. Neste levantamento, foram encontrados dezenas de locais, com dados p´ublicos ou n˜ao, com os mais diferentes tipos de dados, dispostos das mais diversas formas. Os crit´erios adotados para a escolha das fontes de dados foram: relevˆancia (se os dados apresentados pelo site podem resultar na descoberta de regras de associa¸c˜ao que fa¸cam algum sentido), abran-gˆencia (se o site contempla dados de todos - ou quase todos - os campeonatos do mundo, e n˜ao somente dos mais importantes) e confian¸ca (se os dados do site s˜ao utilizados por

(19)

7 portais de renome e/ou clubes de ponta).

Foram utilizadas duas grandes fontes de dados neste trabalho:

1. O site O Gol [8], que conta com um cadastro completo de todos os pa´ıses, cidades, est´adios, clubes, ´arbitros, jogadores e treinadores.

2. A plataforma Wyscout [9], que gera relat´orios robustos com dados das partidas de todos os campeonatos de futebol do planeta e que ´e utilizada pelos clubes mais importantes do Brasil e do mundo.

3.2

Sele¸

ao

Para obter conhecimento sobre o desempenho de um clube numa determinada com-peti¸c˜ao ´e preciso analisar o hist´orico de todas as suas partidas no campeonato em quest˜ao. Por´em, para uma an´alise mais precisa no que diz respeito aos jogadores, precisar´ıamos armazenar os dados das partidas de todos os campeonatos de futebol do mundo, visto que a cada nova temporada e durante as janelas de transferˆencia, novos atletas chegam das mais diversas ligas do planeta.

Devido `a inviabilidade de se extrair e armazenar uma quantidade t˜ao grande de dados (ligas x divis˜oes x edi¸c˜oes x partidas), neste trabalho, optou-se por guardar apenas aqueles referentes `as partidas do Campeonato Brasileiro da S´erie A. Como a plataforma Wyscout, que fornece os dados dos jogos, passou a disponibilizar os relat´orios completos desta competi¸c˜ao a partir da edi¸c˜ao de 2015, a base contempla somente partidas reali-zadas deste ano em diante. Por´em, como a base cont´em o cadastro pr´evio de todos os clubes e atletas, provenientes do site O Gol, ela est´a pronta para receber dados de outras competi¸c˜oes a qualquer momento.

3.3

Estrutura¸

ao

Ap´os esta sele¸c˜ao, foi necess´ario estruturar os dados de forma que pudessem ser extra´ıdos o m´aximo de informa¸c˜oes poss´ıveis. Ent˜ao foi criado o Diagrama Conceitual, contendo todas as tabelas e campos que seriam utilizados para atingir o resultado espe-rado. A base foi modelada para futuramente receber novos dados, caso seja encontrada

(20)

8 uma nova fonte que possua os requisitos citados anteriormente e apresente informa¸c˜oes in´editas.

Para a cria¸c˜ao deste diagrama foi utilizada a ferramenta Astah, uma ferramenta de modelagem UML criada pela empresa japonesa Change Vision, que gera o script SQL para a cria¸c˜ao do banco de dados. O resultado aparece na figura 3.1:

(21)

9

3.4

Extract, Transform, Load

Depois da cria¸c˜ao do banco de dados, das tabelas e dos campos, foi dado in´ıcio ao processo de ETL (Extract, Tranform, Load). Este processo foi respons´avel por 80% do tempo dedicado a este projeto.

3.4.1

Extract

Toda a parte de extra¸c˜ao dos dados foi feita utilizando a linguagem PHP. Nas duas fontes, o processo era mais ou menos o mesmo: jogar todo o c´odigo-fonte - no caso do site - e todo o conte´udo - no caso do arquivo - numa vari´avel de texto. A partir da´ı, bastava quebrar esta vari´avel de acordo com o padr˜ao do documento para obter as informa¸c˜oes dos campos mapeados. Depois disso, o c´odigo utilizava as vari´aveis para gerar o arquivo com o script de inser¸c˜ao SQL.

3.4.2

Transform

Por n˜ao haver necessidade de tratamentos complexos, toda a parte de transforma-¸c˜ao, que consiste na limpeza dos dados e constru¸c˜ao de atributos, foi feita utilizando os recursos do programa Microsoft Office Excel e da ferramenta Notepad++.

3.4.3

Load

Ao fim deste processo, com os scripts prontos, bastou importar os arquivos para o SGBD (Microsoft SQL Server) e execut´a-los para carregar os dados na base.

3.5

Minera¸

ao

Depois dos dados devidamente armazenados, foi necess´ario elaborar as queries com os dados relevantes para o objetivo de cada consulta. Para gerar as ´arvores de classifica¸c˜ao e os gr´aficos de dispers˜ao, foi utilizado o programa Orange Data Mining, um software open source de aprendizado de m´aquina e visualiza¸c˜ao de dados para a realiza¸c˜ao da an´alise preditiva. O fluxo, apresentado na figura 3.2, funciona da seguinte forma: o arquivo .tab (Figura 3.3) ´e criado com os nomes dos campos, seus tipos - cont´ınuo (c) ou discreto (d) -, o atributo classe (class) e os dados da consulta separados por tabula¸c˜ao e ent˜ao

(22)

10 Status Vit´orias

Mandante 402 Empate 185 Visitante 172

Tabela 3.1: Vit´orias por mando de campo

importado atrav´es do step File. Ent˜ao, no step Classification Tree, s˜ao escolhidos alguns parˆametros como o m´etodo de sele¸c˜ao e o n´umero m´ınimo de instˆancias em cada n´ıvel para que a ´arvore possa ser visualizada atrav´es do Classification Tree Viewer. J´a o gr´afico de dispers˜ao ´e gerado pelo Scatter Plot e no pr´oprio step ´e poss´ıvel selecionar as vari´aveis que ser˜ao utilizadas e escolher as formas exibidas pelo gr´afico, por exemplo.

Figura 3.2: Workflow

3.6

Avalia¸

ao

Nos mais diversos esportes, a condi¸c˜ao de mandante (em geral, times que jogam no pr´oprio est´adio e possuem maior quantidade de torcedores presentes nos jogos) pode ser decisiva no resultado final das partidas [10]. E no futebol n˜ao ´e diferente; no campeonato brasileiro, salvo exce¸c˜oes como os 4 ´ultimos colocados que, geralmente, n˜ao vencem um grande n´umero de jogos em casa e os 4 primeiros que, geralmente, n˜ao perdem um grande n´umero de jogos fora de casa (isso acontece porque a diferen¸ca t´ecnica destes times para os demais ´e t˜ao grande que o fator casa acaba tendo um peso menor), as equipes, em geral, encaram uma derrota para outros times na condi¸c˜ao de visitante como algo normal e na condi¸c˜ao de mandante como um drama. Dos 759 jogos do Campeonato Brasileiro de 2015 e 2016, 402 deles foram vencidos pelos times mandantes, como mostra a tabela 3.1.

(23)

11

Figura 3.3: Exemplo de arquivo .tab

Se formos um pouco mais al´em, podemos dizer que 77,3% dos times n˜ao perdem seus jogos quando a partida ´e disputada na sua casa, como ´e apresentado na figura 3.4.

Para entender o porquˆe dessa condi¸c˜ao exercer uma influˆencia t˜ao grande no resul-tado dos jogos, fazer com que times visitantes entendam por que os mandantes dominam a maioria das partidas e mostrar como neutralizar este “fator casa”, observe as figuras 3.5 e 3.6. As vari´aveis utilizadas nos eixos x e y dos gr´aficos das figuras em quest˜ao foram selecionadas de acordo com o algoritmo nativo do programa Orange Data Mining para gr´aficos de dispers˜ao, que descobre o grau de rela¸c˜ao que as vari´aveis possuem entre si, classificando-as do maior grau para o menor.

1. Desempenho dos mandantes (Figura 3.5)

(24)

12

Figura 3.4: Vit´orias por mando de campo (%)

Figura 3.5: Finaliza¸c˜oes de dentro da ´area x Posicionamento no ataque

fatores externos como o apoio da torcida e a familiaridade com o campo de jogo[10]. Teoricamente, quanto mais um time vai ao ataque, mais chances de gol ele cria. Logo, maior ´e a probabilidade dele marcar um gol e vencer a partida. Por´em, na pr´atica n˜ao ´e bem assim que funciona. Note que na figura 3.5, times que n˜ao v˜ao tanto ao ataque (mais pr´oximos do 0 no eixo y) mas quando v˜ao, conseguem chegar em condi¸c˜oes de finalizar dentro da ´area (mais distantes do 0 no eixo x) vencem mais jogos. Times que se exp˜oem demais (mais distantes do 0 no eixo y) e n˜ao conseguem chutar muitas bolas de perto (mais pr´oximos do 0 no eixo x) acabam, naturalmente, perdendo a posse de bola. E essa perda de posse de bola pode resultar em um contra ataque onde o time acaba sofrendo um gol.

(25)

13

Figura 3.6: Contra ataques x Liga¸c˜oes diretas

Pode parecer ´obvio para quem entende o m´ınimo de futebol, mas o gr´afico da figura 3.6 aponta que quando o time visitante puxa poucos contra ataques e faz poucas liga¸c˜oes diretas (passe que sai do goleiro direto para o atacante), na grande maioria das vezes ele acaba perdendo o jogo. Isso porque quanto mais nos afastamos do 0 tanto do eixo x (principalmente) quanto do eixo y, menos concentra¸c˜ao de bolinhas azuis (derrotas) n´os temos. Esta regra pode ser explicada porque, normalmente, o time mandante ´e quem toma a iniciativa do jogo e parte para o ataque. Ao se sentir sufocado, a ´unica chance que o visitante tem ´e encaixar um contra ataque para pegar a defesa advers´aria desmontada. Assim, defesas bem armadas (para resistir `a press˜ao do ataque advers´ario) e bons contra ataques (para aproveitar a abertura da defesa advers´aria) aumentam um pouco a chance do time visitante n˜ao perder. As an´alises a seguir foram feitas baseadas nas tabelas 3.2 e 3.3, que foram geradas a partir da base de dados, e nas ´arvores de decis˜ao apresentadas em cada caso. O algoritmo utilizado para gerar estas ´arvores utiliza o conceito de Entropia (medida da quantidade de “desordem” de um conjunto de registros) e tamb´em ´e nativo do Orange Data Mining.

3. Desempenho do Palmeiras em 2016 - Campe˜ao (Figura 3.7)

No campeonato brasileiro de 2016, o campe˜ao Palmeiras, perdeu apenas 6 vezes. Em 5 destas ocasi˜oes, o time manteve seus jogadores mais de 37,5% do tempo no

(26)

14 P Equipe PG J V E D GP GC SG 1 Palmeiras 80 38 24 8 6 62 32 30 2 Santos 71 38 22 5 11 59 35 24 3 Flamengo 71 38 20 11 7 52 35 17 4 Atl´etico-MG 62 37 17 11 9 61 50 11 5 Botafogo 59 38 17 8 13 43 39 4 6 Atl´etico-PR 57 38 17 6 15 38 32 6 7 Corinthians 55 38 15 10 13 48 42 6 8 Ponte Preta 53 38 15 8 15 48 52 -4 9 Grˆemio 53 38 14 11 13 41 44 -3 10 S˜ao Paulo 52 38 14 10 14 44 36 8 11 Chapecoense 52 37 13 13 11 49 53 -4 12 Cruzeiro 51 38 14 9 15 48 49 -1 13 Fluminense 50 38 13 11 14 45 45 0 14 Sport 47 38 13 8 17 49 55 -6 15 Coritiba 46 38 11 13 14 41 42 -1 16 Vit´oria 45 38 12 9 17 51 53 -2 17 Internacional 43 38 11 10 17 35 41 -6 18 Figueirense 37 38 8 13 17 30 50 -20 19 Santa Cruz 31 38 8 7 23 45 69 -24 20 Am´erica-MG 28 38 7 7 24 23 58 -35

Tabela 3.2: Campeonato brasileiro 2016

P: Posi¸c˜ao | PG: Pontos ganhos | J: Jogos | V: Vit´orias | E: Empates | D: Derrotas | GP: Gols pr´o (feitos) | GC: Gols contra (sofridos) | SG: Saldo de gols

(27)

15 P Equipe PG J V E D GP GC SG 1 Corinthians 81 38 24 9 5 71 31 40 2 Atl´etico-MG 69 38 21 6 11 65 47 18 3 Grˆemio 68 38 20 8 10 52 32 20 4 S˜ao Paulo 62 38 18 8 12 53 47 6 5 Internacional 60 38 17 9 12 39 38 1 6 Sport 59 38 15 14 9 53 38 15 7 Santos 58 38 16 10 12 59 41 18 8 Cruzeiro 55 38 15 10 13 44 35 9 9 Palmeiras 53 38 15 8 15 60 51 9 10 Atl´etico-PR 51 38 14 9 15 43 48 -5 11 Ponte Preta 51 38 13 12 13 41 40 1 12 Flamengo 49 38 15 4 19 45 53 -8 13 Fluminense 47 38 14 5 19 40 49 -9 14 Chapecoense 47 38 12 11 15 34 44 -10 15 Coritiba 44 38 11 11 16 31 42 -11 16 Figueirense 43 38 11 10 17 36 50 -14 17 Ava´ı 42 38 11 9 18 38 60 -22 18 Vasco da Gama 41 38 10 11 17 28 54 -26 19 Goi´as 38 38 10 8 20 39 49 -10 20 Joinville 31 38 7 10 21 26 48 -22

Tabela 3.3: Campeonato brasileiro 2015

P: Posi¸c˜ao | PG: Pontos ganhos | J: Jogos | V: Vit´orias | E: Empates | D: Derrotas | GP: Gols pr´o (feitos) | GC: Gols contra (sofridos) | SG: Saldo de gols

(28)

16

Figura 3.7: Campe˜ao: Palmeiras (2016) ´

ultimo ter¸co do campo. Ou seja: 83% das derrotas do Palmeiras na competi¸c˜ao foram causadas pela exposi¸c˜ao em excesso, que deixaram a defesa desprotegida. Esta informa¸c˜ao poderia ter sido aproveitada pelos times advers´arios, esperando a equipe palmeirense no pr´oprio campo para sair em velocidade no contra ataque ao inv´es de tentar “furar” a defesa que, ao lado da do Atl´etico-PR, foi a melhor do campeonato.

4. Desempenho dos Corinthians em 2015 - Campe˜ao (Figura 3.8)

Figura 3.8: Campe˜ao: Corinthians (2015)

Uma caracter´ıstica do Corinthians campe˜ao brasileiro de 2015 ´e o baixo n´umero de cruzamentos por parte da equipe. 19 das suas 24 vit´orias (80%) aconteceram em jogos onde o time cruzou 8 ou menos bolas por cada lado, n´umero considerado baixo para os padr˜oes do futebol brasileiro. Sabendo disso, os times advers´arios poderiam

(29)

17 afrouxar a marca¸c˜ao nas laterais e concentr´a-la na parte central do campo, setor mais forte da equipe. Assim, o Corinthians seria for¸cado a cruzar mais bolas na ´

area, dificultando a a¸c˜ao de seus melhores jogadores.

5. Desempenho do Internacional em 2016 - Rebaixado (Figura 3.9)

Figura 3.9: Rebaixado: Internacional (2016)

Analisemos agora o caso do Internacional rebaixado em 2016. De cara, fica evidente que o principal fator para as suas derrotas foi a quantidade de bolas perdidas em ambos os lados do campo. Tanto que 7 de suas 11 vit´orias vieram em jogos onde, embora o time tenha perdido muitas bolas na direita, perdeu poucas no setor central do campo e recuperou uma boa quantidade delas. Ciente da deficiˆencia t´ecnica de seus atletas, os treinadores que passaram pelo Internacional em 2016 poderiam dar preferˆencia `a escala¸c˜ao de jogadores que errassem menos passes e colocar mais “ladr˜oes de bola”em campo, al´em, ´e claro, de dar um foco maior para a troca de

passes nos treinamentos.

6. Desempenho do Vasco em 2015 - Rebaixado (Figura 3.10)

O caso do Vasco rebaixado em 2015 ´e um pouco emblem´atico. Curiosamente, 76,5% de suas derrotas ocorreram em jogos onde o time trocou uma grande quantidade de passes. Uma explica¸c˜ao para isso pode ser a falta de objetividade da equipe, que n˜ao conseguiu transformar posse de bola em vit´orias. Tendo consciˆencia disso, os treinadores que passaram pelo clube na temporada poderiam instruir os jogadores a fazer mais lan¸camentos e cruzamentos, al´em de pedir que eles arriscassem mais chutes de longa distˆancia. Por outro lado, o time venceu em 80% das vezes que recuperou 9 ou mais bolas no ´ultimo ter¸co do campo. Esta informa¸c˜ao seria ´util

(30)

18

Figura 3.10: Rebaixado: Vasco (2015)

na montagem de um esquema t´atico onde o time poderia avan¸car a marca¸c˜ao para pressionar a sa´ıda de bola do advers´ario e recuperar mais bolas no ataque.

(31)

Cap´ıtulo 4

Conclus˜

ao

O futebol est´a bem longe de ser uma ciˆencia exata. Diferente de alguns outros esportes, no futebol quase nunca ser o melhor significa vencer. O esporte mais popular do mundo encanta milh˜oes de pessoas pelo mundo afora justamente por suas caracter´ısticas ´

unicas, que re´unem os mais diversos aspectos. E num esporte onde fatores f´ısicos, t´ecnicos, t´aticos e mentais determinam o resultado da partida, os n´umeros chegam para influenciar ainda mais.

Ter um time com jogadores fortes, resistentes e velozes n˜ao garante a vit´oria. Ter um time inteligente e bem entrosado n˜ao garante a vit´oria. Ter um time extremamente motivado n˜ao garante a vit´oria. Nem mesmo uma sele¸c˜ao com os melhores jogadores do mundo garante a vit´oria. Desta forma, ter conhecimento dos pontos fracos e fortes do advers´ario tamb´em n˜ao garantir´a. Por´em, uma jun¸c˜ao de todas estas condi¸c˜oes aumenta consideravelmente as chances de ˆexito da equipe. Times campe˜oes vencem justamente por conseguir reunir todos estes aspectos.

No que diz respeito `a an´alise de desempenho, n˜ao basta mais analisar v´ıdeos das partidas e dados simples como escanteios, faltas e posse de bola. ´E preciso ir al´em, reunir a maior quantidade de dados que estiverem dispon´ıveis e extrair o m´aximo de informa¸c˜oes poss´ıveis para descobrir fatos sobre o advers´ario que nem ele mesmo sabe e ent˜ao poder utiliz´a-las contra ele. At´e mesmo os times considerados imbat´ıveis tˆem pontos fracos e podem ser vencidos.

H´a muitas informa¸c˜oes escondidas que, nem mesmo os futebolistas mais experientes s˜ao capazes de enxergar. E justamente uma destas informa¸c˜oes pode significar um gol, uma vit´oria ou at´e mesmo um t´ıtulo.

(32)

20 Esta ´e uma ´area em franca expans˜ao tanto do lado da computa¸c˜ao quanto do lado do futebol. A tendˆencia ´e que, daqui a alguns anos, todos os clubes tenham um analista de desempenho fazendo parte da comiss˜ao t´ecnica, e n˜ao somente os de ponta. Com o avan¸co da tecnologia, teremos a possibilidade de analisar dados que hoje n˜ao s˜ao sequer captados. E, com os times se tornando cada vez mais competitivos, o campe˜ao ser´a aquele que conseguir fazer uma an´alise mais profunda dos dados que tem `a sua disposi¸c˜ao e montar as estrat´egias mais eficientes.

(33)

Referˆ

encias Bibliogr´

aficas

[1] C. Anderson and D. Sally, Os n´umeros do jogo, 1st ed. Paralela, 2013. [2] A. Plastino, “Minera¸c˜ao de dados - Aula 02 – Introdu¸c˜ao,” 2015, UFF. [3] ——, “Minera¸c˜ao de dados - Aula 03 – Classifica¸c˜ao,” 2015, UFF.

[4] S. Kuper and S. Szymanski, Soccernomimcs, 1st ed. Tinta Negra, 2010. [5] M. Lewis, Moneyball: O Homem Que Mudou o Jogo, 1st ed. Intr´ınseca, 2015. [6] “Changing the game: The rise of sports analytics,” http://www.forbes.

com/sites/leighsteinberg/2015/08/18/changing-the-game-the-rise-of-sports-analytics/#5d462ef831b2, ´Ultimo acesso em 11/01/2017.

[7] J. Han, M. Kamber, and J. Pei, Data Mining: Concepts and Techniques, 3rd ed. Morgan Kaufmann, 2012.

[8] “O gol,” ´Ultimo acesso em 29/12/2016. [Online]. Available: http://www.ogol.com.br [9] “Wyscout,” ´Ultimo acesso em 10/12/2016. [Online]. Available: https://v4.wyscout.

com

[10] A. M. Nevill and R. L. Holder, “Home advantage in sport: an overview of studies on the advantage of playing at home,” Sports Medicine, 1999.

Referências

Documentos relacionados

O Conselho Federal de Psicologia (CFP) apresenta à categoria e à sociedade em geral o documento de Referências Técnicas para a Prática de Psicólogas(os) em Programas de atenção

autoincriminação”, designadamente através da indicação de exemplos paradigmáticos. Sem prejuízo da relevância da matéria – traduzida, desde logo, no número e

Contribuir para o desenvolvimento de produtos finais concretos (metodologias, processos, ferramentas de trabalho, políticas públicas, etc.), que sejam “novas portas

Após 96 horas, houve um aumento no consumo, com o aumento de 100 para 160 ninfas, que não diferiu significativamente da densidade 220; com 280 ninfas disponíveis houve um

Mesmo com suas ativas participações na luta política, as mulheres militantes carregavam consigo o signo do preconceito existente para com elas por parte não somente dos militares,

O trabalho de migrantes de Fagundes- PB nas usinas Maravilha e Santa Tereza, em Pernambuco aborda as mudanças estruturais do Sistema Capitalista, que atingem a questão do mercado

O presente experimento teve como objetivo avaliar o desenvolvimento até os vinte e oito meses de idade e o desempenho reprodutivo no primeiro período de acasalamento de fêmeas

As seguintes características foram avaliadas: período, em dias, da semeadura à emergência das plantas em 75% das covas; dias da semeadura à abertura da primeira flor; dias da