• Nenhum resultado encontrado

DATA MINING. Resultados desportivos. Projeto FEUP 2016/2017 MIEGI. Turma 1 Equipa 2. Ana Beatriz Gonçalves

N/A
N/A
Protected

Academic year: 2021

Share "DATA MINING. Resultados desportivos. Projeto FEUP 2016/2017 MIEGI. Turma 1 Equipa 2. Ana Beatriz Gonçalves"

Copied!
32
0
0

Texto

(1)

DATA MINING

Resultados desportivos

Projeto FEUP 2016/2017 – MIEGI

Turma 1 Equipa 2

Ana Beatriz Gonçalves - 201606903 Ana Margarida Silva - 201506778

Ana Teresa Matos - 201606905 André Moreira Pinto - 201606896 Bárbara Alves Ribeiro- 201606910

Coordenador: Luís Guimarães Supervisor:Armando Leitão

(2)

Resumo

No presente trabalho realizado no âmbito da unidade curricular Projeto FEUP, pretende explorar o conceito de Data Mining, particularizando a sua aplicação a nível desportivo. Efetivamente, este tema revelou-se muito inovador devido, ao facto de, nos dias de hoje, a quantidade de informação pouco organizada ser cada vez mais significativa e, simultaneamente, o desporto querer-se apresentar como uma área mais profissional e eficiente.

Este trabalho aborda todos os aspetos do processo de Data Mining, desde o conceito e considerações mais gerais até à forma como é executado e as principais técnicas/ferramentas de que se serve, não esquecendo algumas das suas vantagens e desvantagens. Para além disso, relativamente à área desportiva, particularizam-se algumas modalidades onde este mecanismo é destacado.

Assim, o Data Mining é um processo que auxilia na previsão de tendências futuras, com o intuito de transformar a informação em conhecimento organizado e útil, possibilitando a aquisição de resultados mais eficientes.

Palavras-chave

Base de dados, padrões, análise, previsão, algoritmos, Data Mining, conhecimento organizado, modelos estatísticos, inteligência artificial, softwares, rendimento, performance

(3)

Agradecimentos

A concretização e elaboração deste relatório, no âmbito da unidade curricular Projeto FEUP, apenas foi possível graças ao contributo de algumas pessoas.

Primeiramente, gostaríamos de louvar a Faculdade de Engenharia da Universidade do Porto por desenvolver uma unidade curricular tão inovadora e didática como o Projeto FEUP, que, certamente, permitirá aos seus mais recentes alunos a aquisição de conhecimentos básicos e muito úteis não só na vida académica mas também na vida profissional.

Por outro lado, gostaríamos de agradecer ao nosso monitor, Luís Dias, e ao nosso supervisor, Professor Armando Leitão, pela disponibilidade, motivação e sugestões que contribuíram decisivamente para que fosse possível a elaboração deste relatório.

(4)

Índice

Introdução ... 1

1. Conceito De Data Mining ... 2

2. Etapas Para A Aplicação Do Data Mining ... 4

2.1. Seleção de dados ... 4

2.2. Limpeza de dados (data quality) ... 4

2.3. Transformação e codificação dos dados... 5

2.4. Processamento do Data Mining ... 5

3. Principais Técnicas / Algoritmos ... 6

3.1. Árvores de Decisão ... 6

3.2. Redes Neuronais ... 6

3.3. Regras de associação ... 7

4. Ferramentas ... 8

4.1. SAS (Enterprise Miner) ... 8

4.2. Weka ... 8

4.3. RapidMiner... 9

5. Vantagens e desvantagens do processo ... 10

5.1. Vantagens ... 10

5.2. Desvantagens ... 11

6. Data mining associado ao desporto ... 13

6.1. Data Mining e resultados desportivos ... 14

7. Trabalhos futuros / Conclusão ... 22

8. Referências bibliográficas... 23

(5)

Lista de Figuras

Figura 1 - Etapas do processo KDD (Knowledge Discovery in Databases)…………..…..… 3

Figura 1 – Etapas para a aplicação do Data Mining ………. 5

Figura 3 - Estrutura de uma árvore de decisão…………...……….…...…….. 6

Figura 4 - Estrutura de uma rede neuronal………...…………...……….………. 7

Figura 5 - Logótipo SAS …………..………...……….………... 8

Figura 6 - Logótipo RapidMiner………..………..…..…. 9

Figura 7 - Jogo de Basquetebol (NBA)………...………….…….... 15

Figura 8 - Zonas de lançamento……….…. 17

Figura 9 - Campeonato de Fórmula 1………...………….……….…. 18

Figura 10 - Acidente de Fórmula 1……….…………..…………...……….. 19

(6)

Lista de Tabelas

Tabela 1 - Dados relativos ao Grand Prix 2016 (Abu Dabi, Austrália, Áustria,

Bahrein, Bélgica, Brasil, Reino Unido) ……….……… 24

Tabela 2 - Dados relativos ao Grand Prix 2016 (Canadá, China, Europa, Alemanha,

Hungria, Índia, Itália e Japão) ……… 25

Tabela 3 - Dados relativos ao Grand Prix 2016 (Coreia, Malásia, México, Mónaco, Rússia,

Singapura, Espanha, Turquia) ……….……… 26

Tabela 4 - Pontuação dos cincos melhores classificados em todas edições do Grand Prix 2016 ………. 18

(7)

INTRODUÇÃO

Nos dias de hoje temos assistido a um contínuo crescimento e desenvolvimento da quantidade e do tipo de informação. A crescente necessidade de organizar e analisar parte dessa informação, de uma forma rápida e mais eficaz, levou ao surgimento do processo de Data

Mining. Assim, Data Mining pode ser interpretado como o método de recolha e análise de

dados, a partir de uma grande quantidade de informação, transformando-a em conhecimento útil e organizado.

Para além disso, as tecnologias que estão associadas ao processo de Data Mining encontram-se igualmente em grande desenvolvimento e expansão e tem-se assistido a um surgimento de novas ferramentas ou aperfeiçoamento das técnicas / algoritmos já existentes.

A aplicação do Data Mining na indústria desportiva foi impulsionada pelo abrangente conjunto de dados associados ao desporto, bem como, pelo facto de este processo ser bastante bem sucedido noutras áreas. O mundo desportivo compreende inúmeras modalidades e desperta grande interesse económico, sendo assim importante um estudo mais científico dos atletas, estudo cujo objetivo é melhorar, tanto quanto possível, a performance dos desportistas [1].

Pretende-se, então, com este trabalho, desenvolvido no âmbito da unidade curricular Projeto FEUP, caracterizar o conceito de Data Mining bem como as suas vantagens e desvantagens, tendo em conta a influência desta técnica ao nível dos resultados desportivos.

(8)

1. CONCEITO DE DATA MINING

O Data Mining é uma área de estudo que se baseia na recolha e seleção de informação, transformando-a em conhecimento organizado.

A análise quantitativa da informação, cujo intuito passa por avaliar e identificar relacionamentos entre variáveis, inclui diversos métodos, desde modelos estatísticos, algoritmos matemáticos e inteligência artificial.

Este mecanismo permite não só a análise de grandes quantidades de dados mas também o registo e dedução de padrões, exceções, tendências e correlações, culminando em conhecimentos potencialmente úteis. Os resultados do processamento dos dados auxiliam na tomada de decisões, sendo usados para descrever características do passado, para predizer tendências futuras (comportamento futuro) e para estabelecer relacionamentos causa/efeito. Esta técnica de mineração de dados tem sido aplicada nas mais diversas áreas, tais como gestão de empresas, controlos de produção, exploração e investigação científicas, desporto, entre outras, como forma de redução de custos, aumento de vendas e melhorias de pesquisas e resultados. [2]

O Data Mining é a principal fase de um procedimento mais extenso, conhecido como KDD (Knowledge Discovery in Databases) (Figura 1), o qual permite a extração não trivial de conhecimento previamente desconhecido e potencialmente útil de um banco de dados, recorrendo a diversos algoritmos. Conceito, ainda enfatizado por Fayyad et al. (1996), afirmando que é “o processo não trivial de identificação de padrões válidos, desconhecidos, potencialmente úteis e, no final das contas, compreensíveis em dados”.

Data mining is extracting or mining knowledge from large amounts of data Han and Kamber 2006

(9)

Segundo Elmasri e Navathe (2002), a técnica de Data Mining compreende os seguintes propósitos:

● Previsão - pode mostrar como certos atributos dentro dos dados irão comportar-se no futuro;

● Identificação - padrões de dados podem ser utilizados para identificar a existência de um item, um evento ou uma atividade;

● Classificação - pode repartir os dados de modo que diferentes classes ou categorias possam ser identificadas com base em combinações de parâmetros;

● Otimização do uso de recursos limitados, como tempo, espaço, dinheiro ou matéria-prima e maximizar variáveis de resultado como vendas ou lucros sob um determinado conjunto de restrições.

(10)

2. ETAPAS PARA A APLICAÇÃO DO DATA MINING

As etapas para aplicação do Data Mining (Figura 2) correspondem a um conjunto de fases distintas onde os dados são continuamente submetidos a processos de seleção, análise, limpeza, transformação e codificação e, por último, são submetidos a um processo que resultará na extração de sequências e padrões.

2.1. Seleção de dados

Normalmente, os dados são extraídos de Data Warehouses, um sistema de computação / banco de dados onde são armazenadas informações de forma consolidada. Nesta fase são selecionados e recolhidos os dados considerados relevantes para posterior análise.

2.2. Limpeza de dados (data quality)

A etapa de limpeza de dados é essencial na eliminação de “ruídos” (conteúdo desnecessário ou inconsistentes) presente na informação e é realizada através de um pré-processamento da mesma. Tendo por base um conjunto de algoritmos de limpeza de dados, esta etapa engloba atividades como a eliminação de duplicados ou dados incompletos, a correção de erros de digitação, a repetição de registos, a identificação de inconsistências que poderão existir, entre outras. É importante salientar que o resultado desta etapa é, em geral, um arquivo completamente distinto das bases de dados originais (Gurek, 2001).

(11)

2.3. Transformação e codificação dos dados

Os dados são transformados e consolidados de forma apropriadas, de modo a facilitar a posterior aplicação das técnicas de Data Mining, sendo para isto realizadas várias operações. Algumas das técnicas empregadas nesta etapa são a suavização (remove valores errados dos dados), agregação (agrupa valores em faixas sumarizadas), generalização (conversão de valores muito específicos em valores mais genéricos), normalização (colocar as variáveis numa mesma escala) e a criação de novos atributos (gerados a partir de outros já existentes).

2.4. Processamento do Data Mining

A aplicação dos diferentes tipos de algoritmos (árvores de decisão, regras de associação e redes neuronais), que serão apresentados no capítulo três, está associada à utilização de ferramentas avançadas que permitirão a representação e agregação de conhecimento mais consolidado (conhecimento anteriormente “oculto” no banco de dados analisados). Esta etapa culmina com a extração dos padrões de conhecimento encontrados. [3]

(12)

3. PRINCIPAIS TÉCNICAS / ALGORITMOS

3.1. Árvores de Decisão

As árvores de decisão (Figura 2), extremamente utilizadas em algoritmos de classificação, são representações simples do conhecimento, que servem para a construção de classificadores que preveem ou revelam classes/informações baseadas nos valores de um conjunto de dados. É executada uma sequência de testes, em que cada nó interno da árvore corresponde a um teste do valor de uma das propriedades, e os ramos deste nó são identificados com os possíveis valores do teste. Uma árvore de decisão é, desta forma, uma série de declarações if-elses, que quando aplicadas a um registro de uma base de dados, resultam na classificação daquele registro.

3.2. Redes Neuronais

As redes neuronais (Figura 3) foram inspiradas na forma como os neurónios do Ser Humano se interligam e constituem uma rede complexa.

Geralmente, uma rede neuronal é constituída por diversos nós: nós de input (que recebem os sinais de entrada), um conjunto de nós intermédios, e nós de output (para os sinais de saída).

(13)

A forma como as ligações entre os nós são estabelecidas é ajustada de acordo com a etapa de aprendizagem, etapa em que são experimentadas diversas combinações possíveis de interligações entre nós, sendo selecionada uma amostra cujos resultados já são conhecidos, isto é, para certos valores atribuídos à entrada da rede, obtém-se a resposta correta. Após a etapa de aprendizagem, utilizam-se outros valores para inputs de modo a obter novas respostas (desconhecidas).

3.3. Regras de associação

As regras de associação permitem descobrir se a presença de um conjunto de itens nos registos de uma base de dados implica a presença de um outro conjunto distinto de itens nos mesmos registos (X → Y) (Agrawal and Srikant, 1994). Serve, assim, para avaliar determinados padrões de comportamento, como por exemplo, a associação de produtos durante um processo de compras e a sua frequência. As bases de dados envolvidas nestes processos são muito grandes o que faz com que seja necessário a utilização de algoritmos rápidos e eficientes [4].

(14)

4. FERRAMENTAS

Nesta secção estão apresentadas algumas das ferramentas mais utilizadas associadas ao Data Mining.

4.1. SAS (Enterprise Miner)

A ferramenta SAS (Figura 4) É frequentemente utilizado como ferramenta para a mineração de dados uma vez que permite uma variedade de manipulação de dados e escolhas de transformação. Permite descobrir padrões de dados através de muita informação e oferece um conjunto, rico e fácil de usar, de capacidades integradas que poderão ser aproveitadas para ajudar a tomar decisões sensatas. Esta ferramenta é maioritariamente utilizada por faculdades e empresas.

Figura 6 – Logótipo SAS

4.2. Weka

O sistema Weka é um software livre, desenvolvido em Java, que tem como principais tarefas a classificação e sumarização, mas também tem como funções o pré-processamento de dados, regressão, agrupamento, regras de associação, e visualização. As suas poderosas funcionalidades e a interface intuitiva são as maiores razões pelas quais esta ferramenta é utilizada.

(15)

4.3. RapidMiner

O RapidMiner (Figura 5) permite, de uma forma simples, construir, executar e validar modelos de mineração de dados. À semelhança da SAS também suporta uma ampla gama de tarefas que inclui o carregamento, transformação, modelagem, métodos de visualização, análise, previsão e agrupamento de dados (Ohana, B., 2009).

(16)

5. VANTAGENS E DESVANTAGENS DO PROCESSO

5.1. Vantagens

O processo de Data Mining, graças ao conhecimento útil e organizado extraído, apresenta inúmeras vantagens, das quais se poderá destacar a previsão de tendências futuras, a ajuda na tomada de decisões em diversos aspetos, a exposição de hábitos de aquisição, o aumento do rendimento das empresas / organizações desportivas e, ainda, a fácil deteção de fraudes.

Marketing/Retalho

As empresas de marketing servem-se do Data Mining para, com base em dados previamente armazenados, construir modelos de modo a prever as resposta que obterão relativamente a novas campanhas de marketing. Através desta previsão, os comerciantes podem definir estratégias a adotar e diferentes formas de abordagem, de modo a rentabilizar as vendas e satisfazer os consumidores.

A nível das vendas a retalho, a análise destas mesmas vendas permite, por um lado, inferir que tipo de produtos são frequentemente comprados juntos, realizando ajustes na operação e produção, e, por outro lado, ajudar as empresas a perceber quais os descontos que devem oferecer, de modo a atrair o máximo de consumidores possível.

Erros nos sistemas que poderiam conduzir a perdas de valor para a empresa, são também identificados recorrendo ao Data Mining, tornando possível corrigir antecipadamente esses erros de modo a evitar consequências negativas.

(17)

Finanças/Bancos

O Data Mining fornece às finanças informações sobre empréstimos e relatórios de crédito, e permite às finanças e aos bancos identificar um bom ou mau empréstimo e o risco que lhe está associado, sendo isto possível através da construção de modelos com dados de clientes anteriores. Para além disso, este processo poderá servir de ferramenta para a deteção de transações fraudulentas, salvaguardando as perdas do proprietário do cartão de crédito.

Governo

O governo opera com a ajuda do Data Mining, analisando com pormenor registos de transações financeiras com a finalidade de detetar lavagens de dinheiro ou qualquer outra atividade criminal.

5.2. Desvantagens

Em contrapartida, podemos apontar como desvantagem o facto de este ser um processo dispendioso (implica grandes custos de implementação e manutenção) e que necessita de mão-de-obra qualificada. Outros inconvenientes que se podem apontar são a violação de privacidade, problemas de segurança, o uso inapropriado de informação e a limitação associada à precisão dos dados.

Privacidade e Segurança

As empresas recolhem diversas informações acerca dos seus clientes com o intuito de compreender o seu comportamento e as suas tendências de compra. Porém, quando uma

(18)

empresa é vendida ou vai à falência, essas informações pessoais são transmitidas e/ou vazam, podendo ser utilizadas de forma não ética.

Informações como o número da segurança social, folha de pagamentos, entre outras, poderão não estar devidamente seguras, e, caso seja essa a situação, um hacker conseguiria ter acesso a essa informação, surgindo assim um grande problema.

Uso inapropriado e precisão de dados

O conhecimento proveniente do Data Mining, destinado à comercialização e a fins éticos, pode ser aproveitado por pessoas mal-intencionadas para explorar vulnerabilidades em função de benefício próprio. É também importante mencionar que este processo não é totalmente fidedigno; desta forma, o uso de informação inexata poderá provocar diversas consequências. [5]

(19)

6. DATA MINING ASSOCIADO AO DESPORTO

A mineração de dados não é apenas utilizada ao nível de empresas, mas também no setor do desporto, cujas organizações e clubes desenvolveram departamentos de análise devido ao grande número de dados associados a cada modalidade. Softwares livres como Rapid Miner e

Weka são algumas das ferramentas mais utilizadas no desporto, de forma a transformar dados

desportivos em conhecimento organizado.

O recurso ao processo do Data Mining no mundo do desporto levou ao desenvolvimento de diversos departamentos analíticos, sendo que em cada jogo ou performance desportiva são colecionados um vasto conjunto de dados sobre cada jogador ou atleta, equipa, jogo ou época. A partir das informações que se retiram destes dados, as organizações ou clubes desportivos realizam análises estatísticas e descobrem padrões, recorrendo à técnica do Data Mining, com o objetivo de prever desempenhos e resultados, ou até com a finalidade de selecionar jogadores/atletas, planear melhores estratégias de treino ou reduzir a frequência e o impacto dos testes físicos aos atletas . Assim, estes dados permitiriam uma otimização da eficiência de cada equipa/atleta e seriam uma mais-valia para os próprios desportistas, quer a nível de treinos quer na sua dieta. [6]

(20)

6.1. Data Mining e resultados desportivos

Futebol

Um caso de particular interesse no desporto é o clube de futebol Italiano AC Milan que recorre ao Data Mining como forma de previsão de possíveis lesões dos seus jogadores. Através do uso da matemática, estatística e inteligência artificial são feitas previsões tendo em conta o historial clínico de cada jogador. Esse registo clínico é desenvolvido através de uma série de testes médicos, os quais são integrados em programas de software inteligente. Seguidamente, procede-se a uma análise dos indicadores clínicos que podem registar uma situação de risco ou não para um dado jogador. Esta informação, agora sobre a forma de conhecimento organizado, pode ser utilizada como uma vantagem competitiva para os jogadores e treinadores na prevenção de doenças e lesões e, por outro lado, pode ser um benefício económico para o clube de futebol. Na verdade, esta prevenção das lesões contribui para uma melhor performance do jogador, valorizando-o no mercado de transferências do futebol.

Basquetebol

O basquetebol é um desporto que, ao longo da sua existência, tem vindo a atrair cada vez mais a atenção de pessoas por todo o mundo, não só para a prática desta modalidade, mas também para presenciar os jogos nos respetivos locais onde estes se desenrolam.

(21)

Num jogo onde apenas a vitória interessa, os cinco jogadores de ambas as equipas dão tudo por tudo para encestar a bola o maior número de vezes no cesto da equipa adversária dentro do tempo limite de jogo. Quem marca mais, ganha.

O basquetebol torna-se assim numa modalidade desportiva muito competitiva (Figura 7), onde os pequenos pormenores fazem toda a diferença entre a vitória ou a derrota.

Figura 7 - Jogo de basquetebol (NBA)

Assim, verifica-se que o uso do Data Mining aplicado às diferentes modalidades desportivas em geral, e ao basquetebol em particular, passa a ser cada vez mais recorrente nos dias de hoje. Com isto nasce uma nova indústria, capaz de revolucionar por completo o mundo do desporto, uma vez que as equipas passam a ter informação preciosa sobre os jogadores e as suas tendencias, sobre treinadores e, até mesmo, sobre as táticas que a equipa adversária adotará antes e durante o decorrer da partida.

A iniciativa da aplicação do Data Mining ao basquetebol partiu de Dean Oliver, que após ter verificado o sucesso deste software, criou uma associação de pesquisadores profissionais de basquetebol (ABPRmetrics) [7].

(22)

Uma das formas de avaliar a eficácia de um determinado jogador é através da Classificação da Eficácia do Jogador (PER), que atribui a esse mesmo jogador uma determinada pontuação tendo em conta a sua eficácia por minuto. A pontuação atribuída considera aspetos importantes como assistências, lançamentos bloqueados, faltas, lançamentos em jogada acertados, lançamentos em jogada falhados, lançamentos livres, ressaltos, roubos de bola, percas de bola, entre outros; permitindo, assim, atribuir uma classificação a um jogador em função da sua performance durante o jogo e comparar esta classificação com as médias das classificações dos outros jogadores. Posteriormente, o treinador pode, desta forma, chegar a uma conclusão viável acerca de um dado jogador e repreende-lo ou felicitá-lo pela sua prestação. Contudo, este método não consegue avaliar aspetos de caráter mais psicológico, como a vontade e o desejo que o jogador em causa tem nas tarefas desempenhadas em campo

.

Outro método adotado na análise das partidas de basquetebol designa-se por Zonas de Lançamento (Figura 8). Esta técnica consiste em dividir um campo de basquetebol em 16 zonas diferentes. O espaço do campo correspondente a cada uma dessas zonas indica os potenciais lugares do campo de onde um jogador, em fase ofensiva, tende a lançar a bola ao cesto. Analisando a percentagem de sucesso dos lançamentos de cada uma das 16 zonas, a equipa adversária poderá fazer eventuais ajustes defensivos a fim de evitar sofrer o maior número de cestos possíveis. Assim, o software Data Mining permite determinar em que posição um jogador tem mais probabilidade de encesta, as manobras mais frequentemente adotadas pelo jogador e prever alguns dos seus movimentos e jogadas. [7]

(23)

Figura 8 - Zonas de lançamento

Para além da análise dos jogos e do desempenho dos jogadores, este processo desempenha igualmente um papel importante na previsão das respostas às campanhas de marketing.

O Data Mining, como já foi referido e comprovado, pode ser uma grande mais-valia a nível desportivo e, em particular, no basquetebol, podendo ser igualmente experimentado em mecanismos secundários, como em apostas de resultados desportivos. [8]

Apesar dos benefícios associados a esta técnica, o Data Mining apresenta alguns pontos negativos ao nível do basquetebol, nomeadamente a nível monetário, pois este software implica grandes custos de implementação e utilização; por vezes, há um excesso de informação, tornando-se difícil a sua organização e análise; as previsões nem sempre se realizam pois há muitas variáveis que influenciam o resultado do jogo, não sendo também possível prever o seu resultado.

(24)

Fórmula 1

Ao nível da Fórmula 1 (Figura 9), desporto que vai ser amplamente analisado seguidamente, o Data Mining tem desempenhado uma importância considerável na escolha dos veículos por parte dos participantes, bem como na análise da performance das equipas e na posterior determinação dos fatores decisivos na classificação final.

Primeiramente, na compra de um veículo de Fórmula 1, tem que se ter em atenção alguns dos seguintes aspetos, tais como o preço, a velocidade máxima, o tamanho do motor, a potência do freio, bem como a qualidade e estado do equipamento.

Figura 9 - Campeonato de Fórmula 1

De seguida, tem-se em conta a informação presente nas tabelas (Tabelas 1, 2 e 3) que se encontram em Anexos e na seguinte tabela (Tabela 4), relativos ao Grand Prix 2016, campeonato de Fórmula 1 decorrido em diferentes países.

Tabela 4 - Pontuação dos cincos melhores classificados em todas edições do Grand Prix 2016

Corredor Pontuação Rosberg Nico 313 Hamilton Lewis 280 Ricciardo Daniel 212 Raikkonem Kimi 170 Verstappen Max 165

(25)

Nestas grandes corridas de Fórmula 1 participaram, no total, 24 corredores das mais diversas nacionalidades e continentes. Da Europa existem representantes da Alemanha, Áustria, Bélgica, Dinamarca, Espanha, Finlândia, França, Itália, Países Baixos, Reino Unido, Suécia, Suíça e ainda da Rússia, que pertence tanto à Europa como à Ásia; no caso da América, apresenta participantes do Brasil, Estados Unidos da América e México; a Ásia está representada pela Indonésia e a Oceânia pela Austrália.

Nesta investigação, a escolha das variáveis tem um determinado propósito, nomeadamente, a idade cujo objetivo é estabelecer uma relação entre o desempenho e a faixa etária do corredor; as grelhas (Figura 10) que relacionam a classificação do participante no final da corrida com a posição inicial nas grelhas de partida e, por último, estabeleceu-se como uma das variáveis o modo como o número de paragens realizadas ao longo da corrida afeta o desempenho e classificação final do participante.

Figura 10 - Pontuação dos cinco corredores melhor classificados

Tendo em conta os dados das tabelas apresentadas, os países que apresentaram os melhores resultados foram a Alemanha, o Reino Unido, a Austrália, a Finlândia e a Rússia. Dito isto, de acordo com as tabelas acima representadas verificamos que as idades dos corredores estão entre os 19 e os 40 anos. No entanto, os cinco melhores classificados

(26)

pertencem ao intervalo de 27 a 36 anos, à exceção do quinto classificado, Verstappen Max, que tem apenas 19 anos.

No que respeita à variável grelha, também é demonstrado, através dos dados, que a maioria dos corredores que chegou ao pódio foram os que começaram a corrida nas primeiras grelhas. Havendo também neste caso algumas exceções como é o caso do Hamilton Lewis que no Belgian Grand Prix partiu da grelha número 21 e, mesmo assim ficou em terceiro lugar, temos também outro caso que não sendo tão extraordinário como o exemplo anterior também é pouco provável, onde o corredor Grosjean Romain no Indian Grand Prix partiu da grelha número 17 e finalizou a corrida em terceiro lugar.

Também existe um padrão para a variável número de paragens, os corredores que chegaram ao pódio fazem em média 2 paragens. No entanto esta variável não é fiável para fazer previsões, pois em geral todos os corredores fazem 2 paragens.

Para obter resultados fidedignos também tem de se ter em conta que numa corrida onde participam, em média, 22 corredores, há desistências, problemas técnicos e acidentes (Figura 11).

(27)

A Tabela 5 mostra, então, o número de corredores que, por alguma(s) das razões apresentadas anteriormente, não completou a corrida. Como consequência destes percalços, advém um resultado final diferente do esperado, o que permite afirmar que esta variável seja relevante. Com base na Tabela 5, a média de corredores que não finalizaram a corrida foi de 3,87.

Tabela 5 – Numero de corredores que não terminaram a partida

As entidades que mais beneficiam com estas investigações são, por exemplo, os patrocinadores e os agentes desportivos, pois estes agente recrutam os melhores (com base nos estudos efetuados) e assim obterem um bom rendimento. De acordo com esta pesquisa e análise, os participantes mais procurados são os corredores com mais experiência, excluindo os corredores mais jovens, apesar de poderem surgir exceções. [9]

Nº de corredores que não terminaram a corrida

Abu Dhabi Grand Prix 1

Australian Grand Prix 10

Austria Grand Prix 6

Bahrain Grand Prix 5

Belgian Grand Prix 5

Brazilin Grand Prix 1

British Grand Prix 6

Canadian Grand Prix 3

Chinese Grand Prix 0

European Gran Prix 4

German Grand Prix 2

Hungarian Grand Prix 1

Indian Grand Prix 4

Italian Grand Prix 4

Japanese Grand Prix 0

Korean Grand Prix 5

Malaysian Grand Prix 6

Mexico Grand Prix 4

Monaco Grand Prix 7

Russian Grand Prix 4

Singapore Grand Prix 4

Spanish Grand Prix 5

(28)

7. TRABALHOS FUTUROS / CONCLUSÃO

O presente trabalho tem como foco o esclarecimento e descrição do conceito e funcionalidades do Data Mining, associado aos resultados desportivos. Assim, concluímos que o Data Mining pode ser definido como o processo de recolha e posterior análise de informação, convertendo-a em conhecimento organizado.

Ao nível do desporto, o Data Mining desempenha um papel inegável pois a elaboração de algoritmos quantitativos possibilita a determinação de possíveis lesões dos jogadores, o estudo do desempenho de um determinado atleta em cada partida e a atribuição de possíveis fatores que influenciam a performance de cada desportista. Consequentemente, estes estudos terão implicações na melhoria dos resultados e desempenho das equipas desportivas. Contudo, este processo não permite o estudo de fatores psicológicos dos atletas, apresentando-se como uma técnica meramente analítica.

O Data Mining é um processo recente e inovador e, por essa razão, ainda tem uma grande margem de progressão, sendo que torna-se relevante aprofundar e investigar esta temática. Sem dúvida, é seguro afirmar que esta técnica será a alavanca para a prática de um ‘novo’ desporto mais eficiente, competitivo e profissional.

(29)

8. REFERÊNCIAS BIBLIOGRÁFICAS

[1] “Data mining of sports performance data” Leonardo di Marchi. 2011. Disponível em: https://vlebb.leeds.ac.uk/bbcswebdav/orgs/SCH_Computing/MSCProj/reports/1011/de_marc hi.pdf. Data de acesso: 17 de outubro de 2016

[2] “Conceitos e Aplicações do Data Mining.” Heloisa Helena Sferra, Ângela M. C. Jorge Corrêa. 2003. Disponível em: http://www.unifra.br/professores/eduardo/Artigo%208.pdf. Data de acesso: 9 de outubro de 2016

[3] “Ferramenta de Pré e Pós-processamento para Data Mining” Deborah Ribeiro Carvalho, Marcos Bueno, Wilson Alves Neto e Luiz Ricardo Lopes. Disponivel em: http://www.inf.furb.br/seminco/2003/artigos/97-vf.pdf. Data de acesso: 16 de outubro de 2016. [4] “Extracção de Regras de Associação com Itens Raros e Frequentes” Sousa, R. 2009. Disponível em:

http://recipp.ipp.pt/bitstream/10400.22/2644/1/DM_RicardoSousa_2009_MEI.pdf. Data de acesso: 16 de outubro de 2016

[5] “A Brief Overview on Data Mining Survey” Hemlata Sahu, Shalini Shrma, Seema Gondhalakar. Disponível em: http://www.ijctee.org/files/Issuethree/IJCTEE_1111_20.pdf. Data de acesso: 14 de outubro de 2016

[6] “A Review of Data Mining Techniques for Result Prediction in Sports”, Maral Haghighat, Hamid Rastegari and Nasim Nourafza. 2013. Disponível em: http://www.acsij.org/documents/v2i5/ACSIJ-2013-2-5-222.pdf. Data de acesso: 12 de outubro de 2016

[7]“The research repository of the Dublin Institute of Technology.” Disponível em: http://arrow.dit.ie/cgi/viewcontent.cgi. Data de acesso: 5 de outubro de 2016

[8] M. Haghighat, H. Rastegari, and N. Nourafza, “A Review of Data Mining Techniques for

Result Prediction in Sports,” Adv. Comput. Sci., vol. 2, no. 5, pp. 7–12, 2013.

[9] MEUS RESULTADOS. 2006. Disponível em: http://www.meusresultados.com. Data de acesso: 5 de outubro de 2016

(30)

9. Anexos

Tabela 1 - Dados relativos ao Grand Prix 2016 (Abu Dabi, Austrália, Áustria, Bahrein , Bélgica, Brasil, Reino Unido)

Posição Corredor Nacionalidade Equipa Grelha Posição Idade

Abu Dhabi Grand Prix

1 Rosberg Nico Alemanha Mercedes 1 2 31

2 Hamilton Lewis Reino Unido Mercedes 2 2 31

3 Raikkonem Kimi Finlândia Ferrari 3 2 36

Australian Grand Prix

1 Rosberg Nico Alemanha Mercedes 2 2 31

2 Hamilton Lewis Reino Unido Mercedes 1 2 31

3 Vettel Sebastian Alemanha Ferrari 3 3 29

Austrian Grand Prix

1 Hamilton Lewis Reino Unido Mercedes 1 4 31

2 Verstappen Max Rússia Red Bull 8 3 19

3 Raikkonem Kimi Finlândia Ferrari 4 3 36

Bahrain Grand Prix

1 Rosberg Nico Alemanha Mercedes 2 3 31

2 Raikkonem Kimi Finlândia Ferrari 4 3 36

3 Hamilton Lewis Reino Unido Mercedes 1 3 31

Belgian Grand Prix

1 Rosberg Nico Alemanha Mercedes 1 2 31

2 Ricciardo Daniel Austrália Red Bull 5 2 27

3 Hamilton Lewis Reino Unido Mercedes 21 3 31

Brazilin Grand Prix

1 Rosberg Nico Alemanha Mercedes 1 3 31

2 Hamilton Lewis Reino Unido Mercedes 2 3 31

3 Vettel Sebastian Alemanha Ferrari 3 3 29

British Grand Prix

1 Hamilton Lewis Reino Unido Mercedes 1 2 31

2 Verstappen Max Rússia Red Bull 3 2 19

(31)

Tabela 2 - Dados relativos ao Grand Prix 2016 (Canadá, China, Europa, Alemanha, Hungria, Índia, Itália e Japão)

Posição Corredor Nacionalidade Equipa Grelha Paragens Idade

Canadian Grand Prix

1 Hamilton Lewis Reino Unido Mercedes 1 1 31

2 Vettel Sebastian Alemanha Ferrari 3 2 29

3 Bottas Valtteri Finlândia Williams 7 1 27

Chinese Grand Prix

1 Rosberg Nico Alemanha Mercedes 1 2 31

2 Vettel Sebastian Alemanha Ferrari 4 3 29

3 Kvyat Daniil Russia Red Bull 6 3 22

European Gran Prix

1 Rosberg Nico Alemanha Mercedes 1 1 31

2 Vettel Sebastian Alemanha Ferrari 3 1 29

3 Perez Sergio Mexico Force India 7 1 26

German Grand Prix

1 Hamilton Lewis Reino Unido Mercedes 2 3 31

2 Ricciardo Daniel Austrália Red Bull 3 3 27

3 Verstappen Max Rússia Red Bull 4 3 19

Hungarian Grand Prix

1 Hamilton Lewis Reino Unido Mercedes 2 2 31

2 Rosberg Nico Alemanha Mercedes 1 2 31

3 Ricciardo Daniel Austrália Red Bull 3 2 27

Indian Grand Prix

1 Vettel Sebastian Alemanha Ferrari 3 1 29

2 Rosberg Nico Alemanha Mercedes 1 1 31

3 Grosjean Romain França Manor Racing 17 1 30

Italian Grand Prix

1 Rosberg Nico Alemanha Mercedes 2 1 31

2 Hamilton Lewis Reino Unido Mercedes 1 1 31

3 Vettel Sebastian Alemanha Ferrari 3 2 29

Japanese Grand Prix

1 Rosberg Nico Alemanha Mercedes 2 2 31

2 Verstappen Max Rússia Red Bull 7 2 19

(32)

Tabela 3 - Dados relativos ao Grand Prix 2016 (Coreia, Malásia, México, Mónaco, Rússia, Singapura, Espanha, Turquia)

Posição

Tabela1 1

Posição

Corredor Nacionalidade Equipa Grelha Paragem Idade

Korean Grand Prix

1 Vettel Sebastian Alemanha Red Bull 1 2 29

2 Raikkonem Kimi Finlândia Renault Sport 9 3 36

3 Grosjean Romain França Manor

Racing

3 2 30

Malaysian Grand Prix

1 Ricciardo Daniel Austrália Red Bull 4 2 27

2 Verstappen Max Rússia Red Bull 3 3 19

3 Rosberg Nico Alemanha Mercedes 2 3 31

Mexico Grand Prix

1 Rosberg Nico Alemanha Mercedes 1 2 31

2 Hamilton Lewis Reino Unido Mercedes 2 2 31

3 Bottas Valtteri Finlândia williams 6 2 27

Monaco Grand Prix

1 Hamilton Lewis Reino Unido Mercedes 3 1 31

2 Ricciardo Daniel Austrália Red Bull 1 2 27

3 Perez Sergio Mexico Force India 7 2 26

Russian Grand Prix

1 Rosberg Nico Alemanha Mercedes 1 1 31

2 Hamilton Lewis Reino Unido Mercedes 10 1 31

3 Raikkonem Kimi Finlândia Ferrari 3 1 36

Singapore Grand Prix

1 Rosberg Nico Alemanha Mercedes 1 3 31

2 Ricciardo Daniel Austrália Red Bull 2 4 27

3 Hamilton Lewis Reino Unido Mercedes 3 4 31

Spanish Grand Prix

1 Verstappen Max Rússia Red Bull 4 2 19

2 Raikkonem Kimi Finlândia Ferrari 5 2 36

3 Vettel Sebastian Alemanha Ferrari 6 3 29

Turkish Grand Prix

1 Vettel Sebastian Alemanha Ferrari 1 4 29

2 Webber Mark Australia Red Bull 2 3 40

Referências

Documentos relacionados

Neste trabalho foi realizado o estudo da cinética de reação de cura de um sistema epóxi à base de diglicidil éter do bisfenol A (DGEBA) com

Se o desliga- mento não acontecer e o manômetro de aço inoxidável continua a indicar a pressão total, isso pode dever-se a fuga na bomba de alta pressão, no comutador de pressão,

Keywords: Business Intelligence, Knowledge Discovery from Databases, Data Mining, Data Mining Standards, Data Mining Languages, Query-By-Example, Inductive

16h05 Desfile de apresentação das ginastas Juniores 18h20 Cerimónias Protocolares Equipas Juvenis 16h15 Competição Juniores – Grupo A.. 18h00 Competição Juniores –

Questão 1- QUESTÃO 1: “Há muito tempo, o rádio, a televisão e outros meios de comunicação têm levado informações simultâneas a lugares remotos. Mas, por esses meios,

A análise dos fatores de risco: idade da menopausa, tempo entre menarca e menopausa, tempo de uso de pílulas anticoncepcionais, número de filhos e idade da

9.1 - A não comunicação do evento no prazo de 90 dias, por culpa exclusiva das empresas, implicará para a empresa na obrigação do reembolso à gestora ou ao sindicato

CLÁUSULA QUADRAGÉSIMA - ATESTADOS MÉDICOS, PSICOLÓGICOS E ODONTOLÓGICOS O empregado deverá recorrer ao SMT da empresa, ou conveniado, quando ausentar-se do trabalho por